如何在AI系統(tǒng)中檢測(cè)和糾正靜默數(shù)據(jù)損壞?
靜默數(shù)據(jù)損壞 (SDC),有時(shí)稱為位衰減或靜默數(shù)據(jù)錯(cuò)誤 (SDE),是指標(biāo)準(zhǔn)錯(cuò)誤檢查機(jī)制未檢測(cè)到的數(shù)據(jù)錯(cuò)誤,可能導(dǎo)致重大數(shù)據(jù)丟失或計(jì)算錯(cuò)誤。SDC 可能導(dǎo)致訓(xùn)練不準(zhǔn)確、預(yù)測(cè)錯(cuò)誤和性能不可靠。檢測(cè) SDC 需要專門(mén)的技術(shù)和工具。
SDC 可以是瞬態(tài)的,也可以是隨機(jī)的。瞬態(tài) SDC 可能是由中微子或 α 粒子等輻射事件引起的。中微子和 α 粒子很難預(yù)測(cè),更難阻止。幸運(yùn)的是,它們也很罕見(jiàn),對(duì)數(shù)據(jù)中心和大多數(shù) AI 系統(tǒng)中的 SDC 沒(méi)有顯著貢獻(xiàn)。
SDC 更大、更嚴(yán)重的來(lái)源是由 IC 缺陷導(dǎo)致的永久性硬件故障。這就是本文的重點(diǎn)。
SDC 以每百萬(wàn)缺陷數(shù) (DPM) 進(jìn)行量化,并且通常存在于制造時(shí),因此被稱為“時(shí)間 0 缺陷”。先進(jìn) IC 的極小特征尺寸會(huì)加劇 SDC 的外觀,使其無(wú)法消除。
圖 1.微觀缺陷會(huì)導(dǎo)致 IC 網(wǎng)絡(luò)偏離理想狀態(tài),是 SDC 的原因之一。(圖片:Asset))
特別是在高性能 IC 中,器件中許多點(diǎn)的小缺陷和邊緣可能會(huì)導(dǎo)致結(jié)果不一致。DRAM、CPU 和 GPU 等 IC 上的圖案化并不完美。即使是大小、形狀和間距的輕微不規(guī)則也可能導(dǎo)致 SDC。這有時(shí)被稱為“燕麥片”效應(yīng)(圖 1)。
當(dāng)然,易受 SDC 影響的各種類型的 IC 并不是孤立使用的;它們是更大系統(tǒng)的一部分。最近的一項(xiàng)研究利用來(lái)自一組云數(shù)據(jù)中心的性能數(shù)據(jù)來(lái)檢查內(nèi)存中的 SDC 與其他系統(tǒng)組件之間的相關(guān)性。一些發(fā)現(xiàn)包括(圖 2):
圖 2.顯示 SDC 某些原因之間相關(guān)性的熱圖。(圖片:Meta Research)
內(nèi)存錯(cuò)誤遵循 Pareto 分布,其中很大一部分效果來(lái)自少量來(lái)源。
來(lái)自內(nèi)存控制器和通道的非 DRAM 故障是大多數(shù)錯(cuò)誤的原因。
更新、更高密度的 DRAM 具有更高的故障率。
芯片較少且傳輸寬度較小的 DIMM 錯(cuò)誤率較低。
CPU 和內(nèi)存利用率 (CPU%) 和 Memory% 分別與整體服務(wù)器故障率相關(guān)。
檢測(cè)和緩解
一旦 IC 安裝在系統(tǒng)中,檢測(cè)和緩解 SDC 就具有挑戰(zhàn)性。有些缺陷僅在溫度、電壓、頻率和指令序列等因素的特定組合下發(fā)生。
在一個(gè)案例中,觀察到 1% 的服務(wù)器負(fù)責(zé)所有可糾正錯(cuò)誤的 97.8%。減輕 SDC 影響的一種方法是使用冗余和容錯(cuò)架構(gòu),其中多個(gè)系統(tǒng)或處理器驗(yàn)證結(jié)果并驗(yàn)證數(shù)據(jù)。
這可能會(huì)很昂貴,并且會(huì)減慢整個(gè)系統(tǒng)的運(yùn)行速度。另一種方法是在將潛在故障芯片集成到系統(tǒng)之前識(shí)別它們。
例如,Intel 的 Data Center Diagnostics Tool (DCDiag) 使用多種機(jī)制來(lái)識(shí)別 SDC。它基于重復(fù)執(zhí)行作或計(jì)算并確認(rèn)正確的結(jié)果。
由于這些測(cè)試明確確認(rèn)了每個(gè)計(jì)算的正確性,因此它們改進(jìn)了對(duì)導(dǎo)致 SDC 的缺陷部件的識(shí)別。其中一些測(cè)試包括確認(rèn)內(nèi)核到內(nèi)核和套接字到套接字通信的準(zhǔn)確性,以及運(yùn)行復(fù)雜的浮點(diǎn)、整數(shù)和數(shù)據(jù)作指令。
開(kāi)放計(jì)算項(xiàng)目 (OCP) 最近建立了服務(wù)器組件彈性工作流,以應(yīng)對(duì) SDC 日益增長(zhǎng)的挑戰(zhàn)。該工作流側(cè)重于研究硬件引起的 SDC 以及開(kāi)發(fā)有效的檢測(cè)和緩解工具。工作流中涉及的初始成員包括 AMD、ARM、Google、Intel、Meta、Microsoft 和 NVIDIA。
總結(jié)
隨著 AI 訓(xùn)練和模型的復(fù)雜性不斷增加,以及先進(jìn) IC 的特征尺寸不斷縮小,SDC 是一個(gè)日益嚴(yán)重的問(wèn)題。SDC 的主要原因是 IC 制造過(guò)程中出現(xiàn)的硬件中所謂的“零時(shí)間缺陷”。這增加了檢測(cè)和減輕其影響的挑戰(zhàn)。最近,OCP 建立了一個(gè)全行業(yè)范圍的工作流程,以開(kāi)發(fā)處理 SDC 的有效工具。
評(píng)論