- +1
上千網(wǎng)站受影響!亞馬遜云服務(wù)四年來最嚴(yán)重宕機(jī):時長15小時,潛在損失或超百億美元
亞馬遜云業(yè)務(wù)AWS經(jīng)歷了一場嚴(yán)重故障,導(dǎo)致全球眾多大型網(wǎng)站癱瘓。
當(dāng)?shù)貢r間10月20日下午3點左右,亞馬遜AWS發(fā)布公告稱,已解決了當(dāng)天持續(xù)了約15小時的服務(wù)故障問題,“所有AWS服務(wù)均恢復(fù)正常運行”。不過,部分服務(wù)(例如AWS Config、Redshift和Connect)仍有積壓的消息,將在接下來的數(shù)小時內(nèi)處理完畢。
目前,AWS尚未給出詳細(xì)的故障原因報告。根據(jù)Synergy Research Group的數(shù)據(jù),作為全球規(guī)模最大的云服務(wù)巨頭之一,AWS占有全球云服務(wù)市場份額的30%以上,在世界各地設(shè)有數(shù)據(jù)中心。
故障觸發(fā)原因:核心節(jié)點出現(xiàn)DNS解析故障
此次故障由數(shù)據(jù)庫網(wǎng)絡(luò)故障引發(fā),影響了全球成百上千個網(wǎng)站和應(yīng)用程序。20日當(dāng)天,美西時間凌晨12點左右,AWS的核心節(jié)點之一美國東部1區(qū)(US-EAST-1)首先報告出現(xiàn)“顯著的錯誤率和延遲”現(xiàn)象。該節(jié)點位于美國弗吉尼亞州北部,是最早啟用、規(guī)模最大的主要節(jié)點,許多全球服務(wù)默認(rèn)部署于此。
最早一批受到嚴(yán)重影響的網(wǎng)站和應(yīng)用程序包括亞馬遜、聊天軟件Snapchat和Facebook,以及熱門游戲Fortnite和學(xué)習(xí)平臺Canvas等等。根據(jù)公告,AWS在20日當(dāng)天凌晨12時26分確認(rèn),故障的觸發(fā)原因是“區(qū)域性DynamoDB(AWS旗下云原生數(shù)據(jù)庫)服務(wù)端點的DNS解析問題”。
DNS(域名系統(tǒng))是一種將網(wǎng)址轉(zhuǎn)換為IP地址的系統(tǒng),這也就意味著,客戶端無法把DynamoDB的域名以正常的速度解析成正確的IP地址,從而導(dǎo)致了后續(xù)一連串服務(wù)故障。在凌晨2時24分,AWS解決了美國東部1區(qū)DynamoDB的DNS問題,各項服務(wù)開始恢復(fù)。
然而,就在大家以為問題得到解決時,第二波故障開始出現(xiàn)。AWS發(fā)現(xiàn),其依賴于DynamoDB的虛擬機(jī)服務(wù)EC2的內(nèi)部子系統(tǒng)也出現(xiàn)了問題,導(dǎo)致無法正常啟動EC2實例,而AWS的多個服務(wù)也受其影響出現(xiàn)了網(wǎng)絡(luò)連接問題。
在恢復(fù)過程中,AWS對啟動EC2實例等操作進(jìn)行了限流,直到當(dāng)天下午3時01分,所有AWS服務(wù)才恢復(fù)正常運行。
根據(jù)網(wǎng)絡(luò)故障追蹤網(wǎng)站Downdetector的統(tǒng)計,金融服務(wù)公司Venmo和Robinhood、加密貨幣交易所Coinbase、蘋果公司的音樂和電視產(chǎn)品、AI公司Perplexity、視頻網(wǎng)站Zoom、索尼游戲平臺PlayStation、美國聯(lián)合航空等網(wǎng)站或應(yīng)用都在當(dāng)天經(jīng)歷了服務(wù)中斷,而英國政府網(wǎng)站Gov.uk和英國稅務(wù)海關(guān)總署也遇到了問題。在故障發(fā)生后的短短兩小時內(nèi),僅美國地區(qū)的相關(guān)投訴量便突破2萬條。
專家:全球網(wǎng)絡(luò)對幾大云巨頭的依賴程度越來越深
分析指出,此次宕機(jī)事件凸顯了全球互聯(lián)網(wǎng)基礎(chǔ)設(shè)施的脆弱性。
根據(jù)互聯(lián)網(wǎng)性能監(jiān)控公司Catchpoint的估算,AWS此次服務(wù)中斷造成的經(jīng)濟(jì)損失將至少達(dá)到數(shù)十億美元。Catchpoint的CEO Mehdi Daoudi指出,如果將本次宕機(jī)的后續(xù)影響、公司停業(yè)損失和“數(shù)百萬名無法進(jìn)行工作的員工的生產(chǎn)力損失”都考慮在其中,累計損失金額將會是數(shù)百億美元乃至千億美元。
咨詢公司Duckbill的首席云計算經(jīng)濟(jì)學(xué)家Corey Quinn表示,此次事故可能是AWS自2021年12月發(fā)生重大中斷以來最嚴(yán)重的一次:“問題在于,這次到底算不算那種‘大規(guī)模災(zāi)難’,還是由于我們的系統(tǒng)之間更加緊密相連、對亞馬遜的依賴更深,所以造成的影響看起來更大?”
這讓人聯(lián)想起去年7月時,網(wǎng)絡(luò)安全公司CrowdStrike造成的微軟大規(guī)模藍(lán)屏事件。那次大規(guī)模宕機(jī)事件因CrowdStrike公司升級安全軟件而引發(fā),影響了全球大約850萬臺安裝微軟Windows操作系統(tǒng)的設(shè)備。
網(wǎng)絡(luò)安全公司NymVPN的首席數(shù)字官Rob Jardin表示,AWS的本次宕機(jī)事件似乎并非由網(wǎng)絡(luò)攻擊引起,更可能是由于“亞馬遜某個主要數(shù)據(jù)中心出現(xiàn)技術(shù)故障”所致:“當(dāng)系統(tǒng)過載或網(wǎng)絡(luò)中的關(guān)鍵組件宕機(jī)時,就可能出現(xiàn)這種問題。由于大量網(wǎng)站和應(yīng)用程序都依賴AWS,影響往往會迅速蔓延。”
美國圣母大學(xué)(University of Notre Dame)門多薩商學(xué)院的信息技術(shù)教授Mike Chapple也強(qiáng)調(diào),問題并非出在數(shù)據(jù)庫本身,而是域名解析系統(tǒng):“這次事件提醒我們,整個世界對亞馬遜、微軟和谷歌這少數(shù)幾家大型云服務(wù)商的依賴有多深。當(dāng)一家主要的云廠商‘打噴嚏’時,整個互聯(lián)網(wǎng)都會感冒。”
或許是事故讓市場重新認(rèn)識到了AWS的重要性,20日當(dāng)天,亞馬遜(Nasdaq:AMZN)股價漲1.61%收于每股216.48美元,總市值2.31萬億美元。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司




