英特爾用AI技巧發(fā)現(xiàn)數(shù)據(jù)中心芯片中隱藏的缺陷

—— 強(qiáng)化學(xué)習(xí)測試芯片是否存在僅在大型數(shù)據(jù)中心中出現(xiàn)的錯誤

作者：時間：2025-04-25 來源：IEEE頻譜

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

對于大型數(shù)據(jù)中心中的高性能芯片，數(shù)學(xué)可能是敵人。由于超大規(guī)模數(shù)據(jù)中心正在進(jìn)行的計算規(guī)模龐大，在數(shù)百萬個節(jié)點和大量硅片上全天候運行，因此會出現(xiàn)極其罕見的錯誤。這只是統(tǒng)計數(shù)據(jù)。這些罕見的、“無聲的”數(shù)據(jù)錯誤不會在傳統(tǒng)的質(zhì)量控制篩查中出現(xiàn)，即使公司花費數(shù)小時尋找它們也是如此。

本文引用地址：http://www.2s4d.com/article/202504/469841.htm

本月，在加利福尼亞州蒙特雷舉行的 IEEE 國際可靠性物理研討會上，英特爾工程師介紹了一種使用強(qiáng)化學(xué)習(xí)來更快地發(fā)現(xiàn)更多無聲數(shù)據(jù)錯誤的技術(shù)。該公司正在使用機(jī)器學(xué)習(xí)方法來確保其 Xeon 處理器的質(zhì)量。

當(dāng)數(shù)據(jù)中心發(fā)生錯誤時，運營商可以關(guān)閉并替換節(jié)點，或者使用有缺陷的系統(tǒng)進(jìn)行低風(fēng)險的計算，英特爾亞利桑那州錢德勒園區(qū)的電氣工程師 Manu Shamsa 說。但如果能及早發(fā)現(xiàn)錯誤，那就更好了。理想情況下，他們會在芯片集成到計算機(jī)系統(tǒng)之前被發(fā)現(xiàn)，此時可以進(jìn)行設(shè)計或制造更正以防止將來再次出現(xiàn)錯誤。

“在筆記本電腦中，您不會注意到任何錯誤。在具有真正密集節(jié)點的數(shù)據(jù)中心中，星星很有可能對齊并發(fā)生錯誤?！?nbsp;Intel 的 Manu Shamsa

找到這些缺陷并不容易。沙姆薩說，工程師們對它們感到非常困惑，他們開玩笑說，這一定是由于遠(yuǎn)距離的幽靈般的動作，愛因斯坦對量子糾纏的稱呼。但他們并沒有什么令人毛骨悚然的，Shamsa 花了數(shù)年時間來描述他們。在去年同一會議上發(fā)表的一篇論文中，他的團(tuán)隊提供了這些錯誤原因的完整目錄。大多數(shù)是由于制造過程中的微小變化。

即使每個芯片上的數(shù)十億個晶體管中的每一個都正常工作，它們彼此之間也不完全相同。例如，給定晶體管對溫度、電壓或頻率變化的響應(yīng)方式的細(xì)微差異可能會導(dǎo)致誤差。

由于計算速度和涉及的大量芯片，這些微妙之處更有可能在大型數(shù)據(jù)中心中出現(xiàn)?！霸诠P記本電腦中，您不會注意到任何錯誤。在具有真正密集節(jié)點的數(shù)據(jù)中心中，星星很有可能對齊并發(fā)生錯誤，“Shamsa 說。

只有在數(shù)據(jù)中心安裝了芯片并運行了數(shù)月后，才會出現(xiàn)一些錯誤。晶體管特性的微小變化會導(dǎo)致它們隨著時間的推移而退化。Shamsa 發(fā)現(xiàn)的一個這樣無聲錯誤與電阻有關(guān)。起初正常工作并通過標(biāo)準(zhǔn)測試以尋找短路的晶體管，在使用后會降解，從而變得更耐用。

“你認(rèn)為一切都很好，但在下面，錯誤導(dǎo)致了錯誤的決定，”Shamsa 說。Shamsa 說，隨著時間的推移，由于單個晶體管的輕微弱點，“一加一會變成三，悄無聲息，直到你看到影響。

機(jī)器學(xué)習(xí)發(fā)現(xiàn)缺陷

這項新技術(shù)建立在一組現(xiàn)有的檢測靜默錯誤的方法（稱為 Eigen 檢驗）之上。這些測試使芯片在一段時間內(nèi)重復(fù)做困難的數(shù)學(xué)題，以期使無聲錯誤明顯。它們涉及對填充了隨機(jī)數(shù)據(jù)的不同大小的矩陣的作。

有大量的 Eigen 檢驗。運行所有這些應(yīng)用程序?qū)⒒ㄙM不切實際的時間，因此芯片制造商使用隨機(jī)方法來生成一組可管理的內(nèi)存條。這樣可以節(jié)省時間，但不會檢測到錯誤?！皼]有原則來指導(dǎo)輸入的選擇，”Shamsa 說。他想找到一種方法來指導(dǎo)選擇，以便相對較少的測試可能會發(fā)現(xiàn)更多錯誤。

英特爾團(tuán)隊使用強(qiáng)化學(xué)習(xí)為其至強(qiáng) CPU 芯片的部分開發(fā)測試，該部分使用所謂的熔斷-乘法-加法（FMA）指令執(zhí)行矩陣乘法。Shamsa 表示，他們選擇 FMA 區(qū)域是因為它占據(jù)了芯片的相對較大的區(qū)域，使其更容易受到潛在的靜默錯誤的影響——更多的硅，更多的問題。更重要的是，芯片這一部分的缺陷會產(chǎn)生電磁場，從而影響系統(tǒng)的其他部分。由于 FMA 在不使用時會關(guān)閉以節(jié)省電量，因此對其進(jìn)行測試需要反復(fù)打開和關(guān)閉電源，這可能會激活隱藏的缺陷，否則這些缺陷不會出現(xiàn)在標(biāo)準(zhǔn)測試中。

在訓(xùn)練的每個步驟中，強(qiáng)化學(xué)習(xí)程序都會為潛在有缺陷的芯片選擇不同的測試。它檢測到的每個錯誤都被視為獎勵，隨著時間的推移，代理會學(xué)會選擇哪些測試可以最大程度地提高檢測到錯誤的機(jī)會。經(jīng)過大約 500 個測試周期后，該算法學(xué)習(xí)了哪組 Eigen 測試優(yōu)化了 FMA 區(qū)域的錯誤檢測率。

Shamsa 說，這種技術(shù)檢測到缺陷的可能性是隨機(jī) Eigen 測試的五倍。特征測試是開源的，是面向數(shù)據(jù)中心的 openDCDiag 的一部分。因此，其他用戶應(yīng)該能夠使用強(qiáng)化學(xué)習(xí)來修改他們自己的系統(tǒng)的這些測試，他說。

在某種程度上，無聲、細(xì)微的缺陷是制造過程中不可避免的一部分——絕對的完美和均勻性仍然遙不可及。但 Shamsa 表示，英特爾正試圖利用這項研究來學(xué)習(xí)更快地找到導(dǎo)致靜默數(shù)據(jù)錯誤的前兆。他正在研究是否存在可以為未來錯誤提供早期預(yù)警的危險信號，以及是否可以更改芯片配方或設(shè)計來管理它們。

新聞中心

英特爾用AI技巧發(fā)現(xiàn)數(shù)據(jù)中心芯片中隱藏的缺陷

評論

相關(guān)推薦

技術(shù)專區(qū)