- +1
上千網(wǎng)站受影響!亞馬遜云服務四年來最嚴重宕機:時長15小時,潛在損失或超百億美元
亞馬遜云業(yè)務AWS經歷了一場嚴重故障,導致全球眾多大型網(wǎng)站癱瘓。
當?shù)貢r間10月20日下午3點左右,亞馬遜AWS發(fā)布公告稱,已解決了當天持續(xù)了約15小時的服務故障問題,“所有AWS服務均恢復正常運行”。不過,部分服務(例如AWS Config、Redshift和Connect)仍有積壓的消息,將在接下來的數(shù)小時內處理完畢。
目前,AWS尚未給出詳細的故障原因報告。根據(jù)Synergy Research Group的數(shù)據(jù),作為全球規(guī)模最大的云服務巨頭之一,AWS占有全球云服務市場份額的30%以上,在世界各地設有數(shù)據(jù)中心。
故障觸發(fā)原因:核心節(jié)點出現(xiàn)DNS解析故障
此次故障由數(shù)據(jù)庫網(wǎng)絡故障引發(fā),影響了全球成百上千個網(wǎng)站和應用程序。20日當天,美西時間凌晨12點左右,AWS的核心節(jié)點之一美國東部1區(qū)(US-EAST-1)首先報告出現(xiàn)“顯著的錯誤率和延遲”現(xiàn)象。該節(jié)點位于美國弗吉尼亞州北部,是最早啟用、規(guī)模最大的主要節(jié)點,許多全球服務默認部署于此。
最早一批受到嚴重影響的網(wǎng)站和應用程序包括亞馬遜、聊天軟件Snapchat和Facebook,以及熱門游戲Fortnite和學習平臺Canvas等等。根據(jù)公告,AWS在20日當天凌晨12時26分確認,故障的觸發(fā)原因是“區(qū)域性DynamoDB(AWS旗下云原生數(shù)據(jù)庫)服務端點的DNS解析問題”。
DNS(域名系統(tǒng))是一種將網(wǎng)址轉換為IP地址的系統(tǒng),這也就意味著,客戶端無法把DynamoDB的域名以正常的速度解析成正確的IP地址,從而導致了后續(xù)一連串服務故障。在凌晨2時24分,AWS解決了美國東部1區(qū)DynamoDB的DNS問題,各項服務開始恢復。
然而,就在大家以為問題得到解決時,第二波故障開始出現(xiàn)。AWS發(fā)現(xiàn),其依賴于DynamoDB的虛擬機服務EC2的內部子系統(tǒng)也出現(xiàn)了問題,導致無法正常啟動EC2實例,而AWS的多個服務也受其影響出現(xiàn)了網(wǎng)絡連接問題。
在恢復過程中,AWS對啟動EC2實例等操作進行了限流,直到當天下午3時01分,所有AWS服務才恢復正常運行。
根據(jù)網(wǎng)絡故障追蹤網(wǎng)站Downdetector的統(tǒng)計,金融服務公司Venmo和Robinhood、加密貨幣交易所Coinbase、蘋果公司的音樂和電視產品、AI公司Perplexity、視頻網(wǎng)站Zoom、索尼游戲平臺PlayStation、美國聯(lián)合航空等網(wǎng)站或應用都在當天經歷了服務中斷,而英國政府網(wǎng)站Gov.uk和英國稅務海關總署也遇到了問題。在故障發(fā)生后的短短兩小時內,僅美國地區(qū)的相關投訴量便突破2萬條。
專家:全球網(wǎng)絡對幾大云巨頭的依賴程度越來越深
分析指出,此次宕機事件凸顯了全球互聯(lián)網(wǎng)基礎設施的脆弱性。
根據(jù)互聯(lián)網(wǎng)性能監(jiān)控公司Catchpoint的估算,AWS此次服務中斷造成的經濟損失將至少達到數(shù)十億美元。Catchpoint的CEO Mehdi Daoudi指出,如果將本次宕機的后續(xù)影響、公司停業(yè)損失和“數(shù)百萬名無法進行工作的員工的生產力損失”都考慮在其中,累計損失金額將會是數(shù)百億美元乃至千億美元。
咨詢公司Duckbill的首席云計算經濟學家Corey Quinn表示,此次事故可能是AWS自2021年12月發(fā)生重大中斷以來最嚴重的一次:“問題在于,這次到底算不算那種‘大規(guī)模災難’,還是由于我們的系統(tǒng)之間更加緊密相連、對亞馬遜的依賴更深,所以造成的影響看起來更大?”
這讓人聯(lián)想起去年7月時,網(wǎng)絡安全公司CrowdStrike造成的微軟大規(guī)模藍屏事件。那次大規(guī)模宕機事件因CrowdStrike公司升級安全軟件而引發(fā),影響了全球大約850萬臺安裝微軟Windows操作系統(tǒng)的設備。
網(wǎng)絡安全公司NymVPN的首席數(shù)字官Rob Jardin表示,AWS的本次宕機事件似乎并非由網(wǎng)絡攻擊引起,更可能是由于“亞馬遜某個主要數(shù)據(jù)中心出現(xiàn)技術故障”所致:“當系統(tǒng)過載或網(wǎng)絡中的關鍵組件宕機時,就可能出現(xiàn)這種問題。由于大量網(wǎng)站和應用程序都依賴AWS,影響往往會迅速蔓延。”
美國圣母大學(University of Notre Dame)門多薩商學院的信息技術教授Mike Chapple也強調,問題并非出在數(shù)據(jù)庫本身,而是域名解析系統(tǒng):“這次事件提醒我們,整個世界對亞馬遜、微軟和谷歌這少數(shù)幾家大型云服務商的依賴有多深。當一家主要的云廠商‘打噴嚏’時,整個互聯(lián)網(wǎng)都會感冒。”
或許是事故讓市場重新認識到了AWS的重要性,20日當天,亞馬遜(Nasdaq:AMZN)股價漲1.61%收于每股216.48美元,總市值2.31萬億美元。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務許可證:31120170006
增值電信業(yè)務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司




