3 人團隊忙不過來造成存儲硬件燒毀,微軟承認旗下 Azure 園區(qū)“人力安排不足”
IT之家 9 月 5 日消息,微軟旗下 Azure 澳大利亞數據中心園區(qū)上周經歷了一次大規(guī)模故障,數據中心的電力供應能力下降導致兩個數據大廳的冷卻設備斷電,由于員工人數“不足”難以應對,最終導致部分存儲硬件被燒毀,包括澳大利亞昆士蘭銀行和捷星航空在內的大型企業(yè)客戶服務完全中斷。
本文引用地址:http://www.2s4d.com/article/202309/450244.htm▲ 捷星航空當時發(fā)布的服務中斷報告
微軟承認現場沒有足夠的工作人員,而且其應急程序也沒有考慮到問題的規(guī)模,在事故發(fā)生時,數據中心只安排了 3 名工作人員,他們都相當盡責地 “執(zhí)行了記錄在案的應急操作程序 (EOP),但最終沒取得有成功”。
▲ 圖源 微軟針對事件發(fā)布的報告(PIR)
IT之家經過查詢得知,兩個受影響數據大廳的冷卻能力 “由七個冷卻器組成,其中五個冷卻器處于運行狀態(tài),兩個冷卻器處于備用狀態(tài)(N+2)”。電源下陷(電壓驟降)導致五個運行中的冷卻器出現故障。
微軟聲稱,“園區(qū)因人員配備不足從而導致了這次事故,在‘更好地了解根本問題并采取適當的緩解措施’之前,工作人員安排數量目前從 3 人臨時增至 7 人?!?,微軟還將調整相關應急預案和日常工作流程,降低此類事件再次發(fā)生的可能性。
▲ 圖源 微軟針對事件發(fā)布的報告(PIR)
據悉,這次事故影響了使用 Azure 的七家大型企業(yè)客戶,其中五家為“標準”級別,兩家為“高級”級別,微軟表示,裝載有企業(yè)客戶存儲內容的硬件“因數據大廳溫度過高而損壞”,除了企業(yè)客戶重大損失外,該數據中心旗下托管的 25 萬多個 SQL 數據庫也發(fā)生了故障,根據微軟 PIR 報告,當下相關數據恢復工作已經大致完成。
▲ 圖源 微軟針對事件發(fā)布的報告(PIR)
評論