Optus表示,“例行软件升级”后的“路由信息变化”是上周全国网络中断的原因,此次中断影响了1020万澳大利亚人和40万家企业。
该公司表示,停电规模意味着 Optus 技术人员必须重新连接或重新启动系统,这意味着对故障原因的调查“比我们希望的要长”。
Optus表示,它已对其网络进行了更改,以解决该问题并避免再次发生,并将“继续投资”以提高其网络的弹性和服务。
此前,Optus 从周一开始为客户提供额外 200GB 数据流量,以弥补上周三的网络中断。
在 Optus 周一透露这一消息之前,专家们推测这次中断很可能是“例行软件升级出错”。
电信分析师和专家上周三向 Optus 首席执行官 Kelly Bayer Rosmarin 提出了软件升级的理论,但她否认了这一说法。
Optus 正面临一系列针对此次停电的询问和调查,包括周五在参议院举行的首次公开听证会。
拜耳迷迭香是唯一确认在场的证人。
Optus 在一份声明中表示,它支持并将“充分配合”政府和参议院正在进行的审查。
http://www.abc.net.au/news/2023 ... e-upgrade/103099902
评论
希望调查能尽快得出结论,给公众一个合理的解释解释!
评论
没关系,罚三杯而已。 。 。
用户们,请高举双手,让这家公司休息一下
评论
一定是华为路由器!
评论
停电这么久,令人无法接受。说明发布管理存在很大问题。变更前的准备比较混乱,出错后没有办法回滚,没有冗余……
评论
路由信息不是不断变化的吗?这种说辞太冠冕堂皇,是为了欺骗非IT人士。无语
评论
我们真的被猜中了。早上我们部门聊天的时候,猜测是哪条关键的BGP路由出错了
评论
真相大白了。 ?
评论
写错了什么意思?此软件更新似乎在全球范围内推出。为什么只有Optus有这个问题?老化的硬件也会产生影响吗?求解释!
评论
理论上Optus可能要自己写很多路由。通过其他ISP骨干路由器了解过的人不需要理解它。应该是自己的路由都写成循环了。具体是怎么发生的我不知道,也没有解释。这个消息简直就是我懒得向大众科普。我很佩服。我很佩服。
显然这是一个人为错误导致了这个路由循环。我不说,我不解释,我也不解释为什么需要14个小时才能恢复。哈哈,nb
评论
凌晨四点换的一般都是肖洛洛。 ,如果出了什么问题,他只会大声呼救。
可惜这一次却联系不到任何一位大师!
以前我们用Telstra的时候,某项关键技术只有一个人能懂。
评论
也就是那天我们讨论了bgp问题。
评论
由于调度人员需要前往全国各大机房对路由器进行物理重启,因此需要14个小时。
评论
很平常的事。
一般来说,一个公司里只有一两个这样的大师。
评论
具体问题还没有解释清楚。
评论
重新启动服务器所需的时间不是普通计算机可比的。更何况,这一次是一个庞大的网络。
评论
此类骨干网的关键BGP路由收敛需要较长时间。但我没想到会花这么长时间。看来ISP的复杂程度还是远远超出了我的想象
评论
我是一名网络工程师,根本无法理解这个操作。 。 。
只要有OOB(带外管理),就不需要物理重启设备。更不用说任何自动配置刷新了。最坏的情况下,手动更改错误的路线也不会花费14小时。 。 。
评论
肯定是中国的,但不是华为的。 Optus 使用 LandGamer。
南宋评论
什么,bgp收敛得很快,14小时停电简直难以想象
评论
这让我想起悉尼火车信号工程师暂时生病请假,导致铁路瘫痪的问题。
评论
为什么他的手机和网络连接问题至今仍未解决?
评论
只是花费了太多时间来排除故障。我想我为更改写了错误的关键路线,然后进行了更改。人们由于某种原因处于离线状态,人们在故障排除时感到困惑,不知道从哪里开始。另外,OOB可能不是真正的OOB,导致失去对关键设备的访问
是这样我也不奇怪,外包就是这样
评论
显然最大的症结是管理,大家都明白
评论
这是什么鬼
评论
BGP收敛确实很快,但像Optus这样大的ISP肯定比CCIE实验室的情况复杂很多倍。
当然,当我们在聊天猜测BGP路由写错的时候,我也说过一两个小时之内就会恢复。宕机14小时,实在是超出了我这个NP已经过期多年的外行能理解的范围
评论
亲测J的M级路由器,BGP与任意ISP采集几十万条公网路由的整个过程只需要几分钟
所以Optus,哈哈哈
评论
这是一个传统的故障排除问题。进行更改的过程只需几秒钟。花了13小时59分钟才知道改哪一个
评论
那天论坛高手已经猜到了
评论
体积肯定更大,但不一定像CCIE LAB那么复杂。澳洲一半人用Optus? Telstra不是最大的吗?
评论
你们大公司在一些不相关的业务上也存在这种管理问题。算了,不过如果你主要靠这个谋生的话,还是省钱,把这个领域外包吧。哈哈,你这是自杀啊。
T家族大概也差不多
评论
配置损坏
评论
据说当时骨干路由器上删除了150个BGP前缀,并且BGP泛洪不断发生,导致整个网络瘫痪。至于定位修复需要多长时间,留给有经验的同学来说
评论
给你200g
评论
果然一般都是一个边境路由问题,能够导致如此大规模事件的根本原因其实并没有那么复杂。
评论
反正我也不懂。
评论
我猜Optus的OOB使用他们自己的服务4G/5G或单独的宽带
这次网络断了,OOB也断了
估计以后的预防措施就是将OOB改为Telstra。每个关键团队都配有几部Telstra手机,方便联系
评论
“例行软件升级”后“路由信息发生变化”——这显然是由于IOS升级导致路由表发生了变化。因此,代码在投入生产之前必须经过仔细的测试。升级需要主次要来分隔两个窗口。您需要遵循这些良好的工程实践。一次停电背后隐藏着 20 个类似的未被发现的风险。希望所有电信公司都能吸取这个教训。这条线有太多的捷径。
评论
网络工作人员飘过。停电期间,他们在推特上表示,这是一个路线反射器。如果peer太多,机器太弱,每次使用一个peer就要花费几十万。路由,导致机器CPU占用率较高。此时外部无法访问,内部也无法启动对等,导致无法收敛。唯一的解决办法就是重启或者控制台进入,然后控制对等量,逐渐增加,最后收敛。那挺好的。别问我为什么知道这些。十几年前我经历过一次,而且是Juniper机器。
评论
我觉得是这个问题,OOB也在用我自己的,一起就崩溃了
评论
因为它会不断地改变,所以会出现一些意想不到的结果,特别是在骨干网络部分。错误将传播到网络的其他部分。如果是循环路由的话问题就大了
评论
没去掉。壶中国
评论
是的,很有可能就是这样,陷入死循环
但本质还是管理问题
评论
Optus CEO听起来好年轻
评论
CEO不懂互联网
评论
他的网络电话全部断线,谁也抓不到,除非有员工使用其他公司的手机或网络
评论
Telstra 甚至没有手机。太弱了。如果你不这样做,谁会是?
Subbie 知道要在 Optus 车站工作,一部 Telstra 电话是必须的。
评论
这个说法还是有道理的,我点个赞。
评论
重大生产事故
澳洲中文论坛热点
- 悉尼部份城铁将封闭一年,华人区受影响!只能乘巴士(组图)
- 据《逐日电讯报》报导,从明年年中开始,因为从Bankstown和Sydenham的城铁将因Metro South West革新名目而
- 联邦政客们具有多少房产?
- 据本月早些时分报导,绿党副首领、参议员Mehreen Faruqi已获准在Port Macquarie联系其房产并建造三栋投资联