一枚碼工腳本誤刪亞馬遜 AWS 弗吉尼亞州數(shù)據(jù)中心幾乎所有 host,引發(fā)悲劇
2月28日,美國亞馬遜AWS在弗吉尼亞州的數(shù)據(jù)中心遭遇了故障,這起事件非同小可。故障使得云服務(wù)S3的錯(cuò)誤率顯著上升,眾多在線服務(wù)因此受到影響。這一情況讓許多人既感到震驚,又感到無奈。
故障事件的開端
2月28日,美國弗吉尼亞州亞馬遜AWS數(shù)據(jù)中心發(fā)生故障。一位工程師誤操作,本意是移除部分服務(wù)器,卻意外刪除了一組服務(wù)器,還連帶影響了兩個(gè)S3子系統(tǒng)的支持。這一失誤表明,操作過程中的人為錯(cuò)誤可能帶來嚴(yán)重影響,一個(gè)小小的失誤就可能引發(fā)一連串嚴(yán)重后果。這進(jìn)一步突顯了嚴(yán)格執(zhí)行操作流程的必要性,對(duì)執(zhí)行者的要求必須更加嚴(yán)格。這次失誤還引發(fā)了后續(xù)一系列反應(yīng),導(dǎo)致眾多在線服務(wù)受到影響。
企業(yè)數(shù)據(jù)中心的管理工作,特別是像亞馬遜這樣的行業(yè)巨頭,對(duì)執(zhí)行者的專業(yè)素養(yǎng)和操作流程的審查尤為關(guān)鍵。對(duì)于可能發(fā)生的人為失誤,是否應(yīng)該建立更為嚴(yán)格的多級(jí)審核制度?
涉及的相關(guān)服務(wù)
受影響的網(wǎng)站服務(wù)名單中,Slack赫然在列。這些服務(wù)要么鏡像部分丟失,要么處于半運(yùn)行狀態(tài)。連亞馬遜彈性計(jì)算云(EC2)的新實(shí)例啟動(dòng)也未能幸免。隨著云計(jì)算成為眾多企業(yè)和服務(wù)運(yùn)行的關(guān)鍵支撐,一個(gè)服務(wù)的故障可能引發(fā)連鎖反應(yīng),如同多米諾骨牌般波及廣泛。無數(shù)企業(yè)和用戶都依賴這些服務(wù)來開展在線業(yè)務(wù)或獲取信息。而弗吉尼亞州數(shù)據(jù)中心故障所影響的范圍,或許已經(jīng)遍布全球各地。
大型云服務(wù)提供商的服務(wù)穩(wěn)定性顯得尤為重要。若出現(xiàn)故障,影響范圍廣泛。這時(shí),小型服務(wù)提供商和企業(yè)是否應(yīng)重新審視選擇云服務(wù)供應(yīng)商時(shí)的風(fēng)險(xiǎn)考量?
系統(tǒng)調(diào)試問題
亞馬遜S3團(tuán)隊(duì)當(dāng)時(shí)正在調(diào)試問題,這導(dǎo)致了S3計(jì)費(fèi)系統(tǒng)的處理速度變慢。在PUT請(qǐng)求中,布置子系統(tǒng)在重啟時(shí)無法處理服務(wù)請(qǐng)求。S3API無法使用,這影響了依賴S3存儲(chǔ)的其他相關(guān)實(shí)例。這一現(xiàn)象充分展示了系統(tǒng)之間關(guān)聯(lián)的復(fù)雜性。僅僅是一個(gè)計(jì)費(fèi)系統(tǒng)的調(diào)試,就可能產(chǎn)生如此顯著的蝴蝶效應(yīng)。那么,如果是更核心的系統(tǒng)出現(xiàn)問題?
企業(yè)在調(diào)試系統(tǒng)時(shí),是否應(yīng)更加慎重地制定計(jì)劃?是否應(yīng)全面考慮系統(tǒng)之間的相互聯(lián)系?是否應(yīng)對(duì)調(diào)試的時(shí)間段進(jìn)行更為周密的安排,以避開業(yè)務(wù)高峰期等關(guān)鍵時(shí)段?
系統(tǒng)設(shè)計(jì)與應(yīng)對(duì)故障的思考
S3子系統(tǒng)本意是為了減輕故障帶來的影響,然而,多年來并未對(duì)某些服務(wù)進(jìn)行過全面的重啟。伴隨S3的進(jìn)步,重啟所需的時(shí)間已遠(yuǎn)遠(yuǎn)超出預(yù)期。這表明,盡管企業(yè)的系統(tǒng)設(shè)計(jì)具有前瞻性,但在業(yè)務(wù)迅猛增長后的情形可能并未得到充分預(yù)想。至于對(duì)故障的處理,也未很好地適應(yīng)業(yè)務(wù)變化后的新情況。
企業(yè)在業(yè)務(wù)迅速擴(kuò)張的過程中,是否需要設(shè)立一套專門的機(jī)制,定期對(duì)系統(tǒng)設(shè)計(jì)進(jìn)行重新評(píng)估和優(yōu)化,以便應(yīng)對(duì)可能出現(xiàn)的故障問題?
解決措施與應(yīng)對(duì)反應(yīng)
對(duì)修改工具進(jìn)行調(diào)整,使其刪除數(shù)據(jù)速度減慢,并增強(qiáng)安全防護(hù)。工程團(tuán)隊(duì)對(duì)服務(wù)進(jìn)行了拆分,便于對(duì)評(píng)估和測(cè)試恢復(fù)流程進(jìn)行審查。從故障發(fā)生至上午11點(diǎn)37分,由于SHD管理控制器依賴S3,未能更新服務(wù)狀態(tài)。因此,我們調(diào)整了SHD管理控制臺(tái),使其能夠在多個(gè)區(qū)域運(yùn)行。這些應(yīng)對(duì)措施展現(xiàn)了企業(yè)解決問題的態(tài)度,然而,這些措施是否足夠?
企業(yè)實(shí)施故障應(yīng)對(duì)措施時(shí),如何確保能迅速且高效地恢復(fù)服務(wù)?
服務(wù)重要性與反思
亞馬遜自豪于其S3服務(wù)的卓越可用性,然而此次事件卻揭示了一個(gè)事實(shí):服務(wù)對(duì)于客戶、應(yīng)用、用戶和業(yè)務(wù)來說至關(guān)重要。亞馬遜必須進(jìn)行深刻反思,其他云服務(wù)企業(yè)也應(yīng)將此次事件作為警示。一個(gè)服務(wù)故障所影響的,絕不僅僅是一個(gè)小范圍的群體。
其他云服務(wù)企業(yè)能從亞馬遜此次故障中學(xué)到哪些經(jīng)驗(yàn)以防止類似危機(jī)的發(fā)生?期待讀者們積極留言,并點(diǎn)贊及轉(zhuǎn)發(fā)這篇文章。大家還了解哪些典型的云服務(wù)故障案例嗎?
作者:小藍(lán)
鏈接:http://www.m13746.cn/content/3585.html
本站部分內(nèi)容和圖片來源網(wǎng)絡(luò),不代表本站觀點(diǎn),如有侵權(quán),可聯(lián)系我方刪除。