英特爾用AI技巧發(fā)現(xiàn)數(shù)據(jù)中心芯片中隱藏的缺陷
對(duì)于大型數(shù)據(jù)中心中的高性能芯片,數(shù)學(xué)可能是敵人。由于超大規(guī)模數(shù)據(jù)中心正在進(jìn)行的計(jì)算規(guī)模龐大,在數(shù)百萬(wàn)個(gè)節(jié)點(diǎn)和大量硅片上全天候運(yùn)行,因此會(huì)出現(xiàn)極其罕見(jiàn)的錯(cuò)誤。這只是統(tǒng)計(jì)數(shù)據(jù)。這些罕見(jiàn)的、“無(wú)聲的”數(shù)據(jù)錯(cuò)誤不會(huì)在傳統(tǒng)的質(zhì)量控制篩查中出現(xiàn),即使公司花費(fèi)數(shù)小時(shí)尋找它們也是如此。
本文引用地址:http://www.2s4d.com/article/202504/469841.htm本月,在加利福尼亞州蒙特雷舉行的 IEEE 國(guó)際可靠性物理研討會(huì)上,英特爾工程師介紹了一種使用強(qiáng)化學(xué)習(xí)來(lái)更快地發(fā)現(xiàn)更多無(wú)聲數(shù)據(jù)錯(cuò)誤的技術(shù)。該公司正在使用機(jī)器學(xué)習(xí)方法來(lái)確保其 Xeon 處理器的質(zhì)量。
當(dāng)數(shù)據(jù)中心發(fā)生錯(cuò)誤時(shí),運(yùn)營(yíng)商可以關(guān)閉并替換節(jié)點(diǎn),或者使用有缺陷的系統(tǒng)進(jìn)行低風(fēng)險(xiǎn)的計(jì)算,英特爾亞利桑那州錢(qián)德勒?qǐng)@區(qū)的電氣工程師 Manu Shamsa 說(shuō)。但如果能及早發(fā)現(xiàn)錯(cuò)誤,那就更好了。理想情況下,他們會(huì)在芯片集成到計(jì)算機(jī)系統(tǒng)之前被發(fā)現(xiàn),此時(shí)可以進(jìn)行設(shè)計(jì)或制造更正以防止將來(lái)再次出現(xiàn)錯(cuò)誤。
“在筆記本電腦中,您不會(huì)注意到任何錯(cuò)誤。在具有真正密集節(jié)點(diǎn)的數(shù)據(jù)中心中,星星很有可能對(duì)齊并發(fā)生錯(cuò)誤。— Intel 的 Manu Shamsa
找到這些缺陷并不容易。沙姆薩說(shuō),工程師們對(duì)它們感到非常困惑,他們開(kāi)玩笑說(shuō),這一定是由于遠(yuǎn)距離的幽靈般的動(dòng)作,愛(ài)因斯坦對(duì)量子糾纏的稱(chēng)呼。但他們并沒(méi)有什么令人毛骨悚然的,Shamsa 花了數(shù)年時(shí)間來(lái)描述他們。在去年同一會(huì)議上發(fā)表的一篇論文中,他的團(tuán)隊(duì)提供了這些錯(cuò)誤原因的完整目錄。大多數(shù)是由于制造過(guò)程中的微小變化。
即使每個(gè)芯片上的數(shù)十億個(gè)晶體管中的每一個(gè)都正常工作,它們彼此之間也不完全相同。例如,給定晶體管對(duì)溫度、電壓或頻率變化的響應(yīng)方式的細(xì)微差異可能會(huì)導(dǎo)致誤差。
由于計(jì)算速度和涉及的大量芯片,這些微妙之處更有可能在大型數(shù)據(jù)中心中出現(xiàn)?!霸诠P記本電腦中,您不會(huì)注意到任何錯(cuò)誤。在具有真正密集節(jié)點(diǎn)的數(shù)據(jù)中心中,星星很有可能對(duì)齊并發(fā)生錯(cuò)誤,“Shamsa 說(shuō)。
只有在數(shù)據(jù)中心安裝了芯片并運(yùn)行了數(shù)月后,才會(huì)出現(xiàn)一些錯(cuò)誤。晶體管特性的微小變化會(huì)導(dǎo)致它們隨著時(shí)間的推移而退化。Shamsa 發(fā)現(xiàn)的一個(gè)這樣無(wú)聲錯(cuò)誤與電阻有關(guān)。起初正常工作并通過(guò)標(biāo)準(zhǔn)測(cè)試以尋找短路的晶體管,在使用后會(huì)降解,從而變得更耐用。
“你認(rèn)為一切都很好,但在下面,錯(cuò)誤導(dǎo)致了錯(cuò)誤的決定,”Shamsa 說(shuō)。Shamsa 說(shuō),隨著時(shí)間的推移,由于單個(gè)晶體管的輕微弱點(diǎn),“一加一會(huì)變成三,悄無(wú)聲息,直到你看到影響。
機(jī)器學(xué)習(xí)發(fā)現(xiàn)缺陷
這項(xiàng)新技術(shù)建立在一組現(xiàn)有的檢測(cè)靜默錯(cuò)誤的方法(稱(chēng)為 Eigen 檢驗(yàn))之上。這些測(cè)試使芯片在一段時(shí)間內(nèi)重復(fù)做困難的數(shù)學(xué)題,以期使無(wú)聲錯(cuò)誤明顯。它們涉及對(duì)填充了隨機(jī)數(shù)據(jù)的不同大小的矩陣的作。
有大量的 Eigen 檢驗(yàn)。運(yùn)行所有這些應(yīng)用程序?qū)⒒ㄙM(fèi)不切實(shí)際的時(shí)間,因此芯片制造商使用隨機(jī)方法來(lái)生成一組可管理的內(nèi)存條。這樣可以節(jié)省時(shí)間,但不會(huì)檢測(cè)到錯(cuò)誤?!皼](méi)有原則來(lái)指導(dǎo)輸入的選擇,”Shamsa 說(shuō)。他想找到一種方法來(lái)指導(dǎo)選擇,以便相對(duì)較少的測(cè)試可能會(huì)發(fā)現(xiàn)更多錯(cuò)誤。
英特爾團(tuán)隊(duì)使用強(qiáng)化學(xué)習(xí)為其至強(qiáng) CPU 芯片的部分開(kāi)發(fā)測(cè)試,該部分使用所謂的熔斷-乘法-加法 (FMA) 指令執(zhí)行矩陣乘法。Shamsa 表示,他們選擇 FMA 區(qū)域是因?yàn)樗紦?jù)了芯片的相對(duì)較大的區(qū)域,使其更容易受到潛在的靜默錯(cuò)誤的影響——更多的硅,更多的問(wèn)題。更重要的是,芯片這一部分的缺陷會(huì)產(chǎn)生電磁場(chǎng),從而影響系統(tǒng)的其他部分。由于 FMA 在不使用時(shí)會(huì)關(guān)閉以節(jié)省電量,因此對(duì)其進(jìn)行測(cè)試需要反復(fù)打開(kāi)和關(guān)閉電源,這可能會(huì)激活隱藏的缺陷,否則這些缺陷不會(huì)出現(xiàn)在標(biāo)準(zhǔn)測(cè)試中。
在訓(xùn)練的每個(gè)步驟中,強(qiáng)化學(xué)習(xí)程序都會(huì)為潛在有缺陷的芯片選擇不同的測(cè)試。它檢測(cè)到的每個(gè)錯(cuò)誤都被視為獎(jiǎng)勵(lì),隨著時(shí)間的推移,代理會(huì)學(xué)會(huì)選擇哪些測(cè)試可以最大程度地提高檢測(cè)到錯(cuò)誤的機(jī)會(huì)。經(jīng)過(guò)大約 500 個(gè)測(cè)試周期后,該算法學(xué)習(xí)了哪組 Eigen 測(cè)試優(yōu)化了 FMA 區(qū)域的錯(cuò)誤檢測(cè)率。
Shamsa 說(shuō),這種技術(shù)檢測(cè)到缺陷的可能性是隨機(jī) Eigen 測(cè)試的五倍。特征測(cè)試是開(kāi)源的,是面向數(shù)據(jù)中心的 openDCDiag 的一部分。因此,其他用戶(hù)應(yīng)該能夠使用強(qiáng)化學(xué)習(xí)來(lái)修改他們自己的系統(tǒng)的這些測(cè)試,他說(shuō)。
在某種程度上,無(wú)聲、細(xì)微的缺陷是制造過(guò)程中不可避免的一部分——絕對(duì)的完美和均勻性仍然遙不可及。但 Shamsa 表示,英特爾正試圖利用這項(xiàng)研究來(lái)學(xué)習(xí)更快地找到導(dǎo)致靜默數(shù)據(jù)錯(cuò)誤的前兆。他正在研究是否存在可以為未來(lái)錯(cuò)誤提供早期預(yù)警的危險(xiǎn)信號(hào),以及是否可以更改芯片配方或設(shè)計(jì)來(lái)管理它們。
評(píng)論