CenturyLink的一個(gè)BGP路由錯(cuò)誤已引起整個(gè)互聯(lián)網(wǎng)出現(xiàn)連鎖反應(yīng),導(dǎo)致無數(shù)與互聯(lián)網(wǎng)連接的服務(wù)癱瘓,比如Cloudflare、AWS、Garmin、Steam、Discord和Blizzard等眾多服務(wù)。
這些故障從美國東部標(biāo)準(zhǔn)時(shí)間上午6點(diǎn)左右開始,當(dāng)時(shí)客戶們開始報(bào)告美國發(fā)生了影響CenturyLink服務(wù)的大規(guī)模故障。
在Twitter上搜索一番,可以發(fā)現(xiàn)突然大量用戶紛紛吐槽,抱怨無數(shù)聯(lián)網(wǎng)服務(wù)不是性能低下就是完全中斷,比如Blizzard、Steam、Discord、Roblox、Cloudflare、Hulu、Slink、Reddit和Amazon AWS等眾多服務(wù)。
CenturyLink聲稱,其Level3 CA3數(shù)據(jù)中心導(dǎo)致了這起故障,正在調(diào)查此問題。
CenturyLink的狀態(tài)頁面顯示:“我們的技術(shù)團(tuán)隊(duì)正在調(diào)查影響CA3數(shù)據(jù)中心一些服務(wù)的一個(gè)問題。確保我們服務(wù)的可靠性是我們的重中之重。隨著這起事件不斷進(jìn)展,我們會(huì)繼續(xù)提供狀態(tài)更新。如果您需要進(jìn)一步的支持,可以通過help@ctl.io聯(lián)系我們。”
此后該故障已得到了解決,服務(wù)在緩慢恢復(fù),一些地區(qū)恢復(fù)所花的時(shí)間比其他地區(qū)要久。
BGP路由問題導(dǎo)致故障
據(jù)受影響客戶的無數(shù)報(bào)告顯示,今天的問題是CenturyLink的BGP路由問題引起的,CenturyLink的路由沒有正確地傳輸互聯(lián)網(wǎng)的一些部分。
為了使互聯(lián)網(wǎng)正常運(yùn)行,互聯(lián)網(wǎng)服務(wù)提供商(ISP)、數(shù)據(jù)中心和網(wǎng)絡(luò)提供商通過BGP路由協(xié)議來通告它們路由和管理的IP地址。
由于這主要是一種基于信任的系統(tǒng),大型ISP開始通告它們并不管理的IP地址范圍的路由時(shí),會(huì)導(dǎo)致全球性故障和性能問題。
CenturyLink似乎在BGP路由方面犯了一個(gè)錯(cuò)誤,從而導(dǎo)致了當(dāng)今的大范圍故障。
大概10分鐘前Centurylink似乎撤回了無效的BGP路由,并修復(fù)了其網(wǎng)絡(luò)問題。作為一項(xiàng)防范措施,我們暫時(shí)任由我們的AS3356會(huì)話處于宕機(jī)狀態(tài),以防Centurylink又出問題。我們會(huì)繼續(xù)全天密切關(guān)注事態(tài)。
2020年8月30日10點(diǎn)04分GMT,CenturyLink發(fā)現(xiàn)一個(gè)問題影響多個(gè)市場的用戶。IP網(wǎng)絡(luò)操作中心(NOC)參與其中,初步研究發(fā)現(xiàn),一個(gè)存在問題的flowspec通告阻止邊界網(wǎng)關(guān)協(xié)議(BGP)跨整個(gè)CenturyLink網(wǎng)絡(luò)的多個(gè)網(wǎng)絡(luò)單元建立起來。IP NOC部署了全局配置變更,以阻止存在問題的flowspec通告,這讓BGP得以開始正確建立起來。變更實(shí)施到整個(gè)網(wǎng)絡(luò)中后,IP NOC觀察到引發(fā)警報(bào)的所有相關(guān)服務(wù)解除警報(bào)、服務(wù)回到穩(wěn)定狀態(tài)。
CenturyLink中斷導(dǎo)致全球Web流量下降了3.5%。
責(zé)編AJX
-
互聯(lián)網(wǎng)
+關(guān)注
關(guān)注
55文章
11337瀏覽量
109904 -
服務(wù)器
+關(guān)注
關(guān)注
14文章
10253瀏覽量
91487 -
BGP
+關(guān)注
關(guān)注
0文章
88瀏覽量
16111
發(fā)布評論請先 登錄
TensorRT-LLM的大規(guī)模專家并行架構(gòu)設(shè)計(jì)
大規(guī)模物聯(lián)網(wǎng)供電:考慮因素與微能量采集技術(shù)解決方案
大規(guī)模專家并行模型在TensorRT-LLM的設(shè)計(jì)
服務(wù)器數(shù)據(jù)恢復(fù)—服務(wù)器斷電導(dǎo)致raid模塊損壞的數(shù)據(jù)恢復(fù)案例
使用Ansible實(shí)現(xiàn)大規(guī)模集群自動(dòng)化部署
服務(wù)器數(shù)據(jù)恢復(fù)—硬盤離線導(dǎo)致raid上層的卷無法掛載的數(shù)據(jù)恢復(fù)案例
Path Bandwidth Extended Community:藏在BGP屬性里的智能路由革命
動(dòng)態(tài)BGP與靜態(tài)BGP的區(qū)別?
薄型、多頻段、大規(guī)模物聯(lián)網(wǎng)前端模塊 skyworksinc
帶耦合器的大規(guī)模物聯(lián)網(wǎng)半雙工前端模塊 skyworksinc
大規(guī)模 GOA 液晶線路修復(fù)方法
聯(lián)網(wǎng)人都要了解的工業(yè)路由器故障排查與維護(hù)技巧大全
5G 大規(guī)模物聯(lián)網(wǎng)系統(tǒng)級封裝 skyworksinc
BGP路由錯(cuò)誤已導(dǎo)致CenturyLink聯(lián)網(wǎng)服務(wù)的大規(guī)模故障
評論