英偉達GPU被發(fā)現(xiàn)嚴重漏洞
針對英偉達GPU(搭載GDDR6顯存)黑客發(fā)現(xiàn)通過名為GPUHammer漏洞,這是一種Rowhammer(行錘攻擊)攻擊變體,可將英偉達顯卡上AI模型的準(zhǔn)確率從80%直接掉到0.02%。多倫多大學(xué)的研究人員形容,這種攻擊就像在模型中引發(fā)災(zāi)難性的腦損傷。
目前,該漏洞已在RTX A6000顯卡上測試驗證,不過H100或RTX5090不受影響,因為它們有片上ECC(系統(tǒng)級糾錯碼)。英偉達建議用戶實施一項防御措施,但這種措施會讓模型性能下降10%。
物理層面的攻擊
該攻擊由多所大學(xué)研究人員首次實證驗證,可通過誘發(fā)GPU顯存中的比特翻轉(zhuǎn)(bit flip)現(xiàn)象,即通過反復(fù)“錘擊”某一行內(nèi)存,導(dǎo)致相鄰行的比特位發(fā)生翻轉(zhuǎn)(0變1或1變0),從而實現(xiàn)對AI模型等關(guān)鍵數(shù)據(jù)的破壞性篡改。這一物理層面的攻擊方式在現(xiàn)代GPU內(nèi)存架構(gòu)中極具破壞性,類似于針對CPU的Spectre和Meltdown擊,標(biāo)志著這類曾廣泛威脅DRAM和CPU的硬件漏洞正在向GPU擴散,對AI基礎(chǔ)設(shè)施的構(gòu)成重大風(fēng)險。
在共享GPU平臺(如云端機器學(xué)習(xí)平臺、VDI虛擬桌面等)中,這種攻擊還可能演變?yōu)榭缱鈶麸L(fēng)險:攻擊者無需直接訪問他人模型,僅憑顯存中可控的干擾就能操控鄰近任務(wù)的模型權(quán)重,誘導(dǎo)其輸出錯誤判斷。GPUHammer的影響遠不止于數(shù)據(jù)中心訓(xùn)練節(jié)點 —— 邊緣計算設(shè)備、自主駕駛系統(tǒng)、金融風(fēng)控引擎等也大量依賴GPU并實時推理。如果這些系統(tǒng)遭到顯存層級的「靜默破壞」,可能出現(xiàn)無法逆轉(zhuǎn)的誤判或合規(guī)失誤。
如何防御?
為防范GPUHammer攻擊,英偉達建議用戶通過命令nvidia-smi-e1啟用ECC功能,并使用nvidia-smi-q|grep ECC驗證狀態(tài),通過為數(shù)據(jù)附加額外的校驗位,可自動檢測并修復(fù)單比特翻轉(zhuǎn)。不過它只能修復(fù)單個比特錯誤,遇上雙比特翻轉(zhuǎn),只能發(fā)出警告無法修復(fù)。
研究團隊表示,系統(tǒng)一般默認禁用ECC,因為ECC啟用后可能導(dǎo)致A6000顯卡推理性能下降約10%、顯存減少6.25%,但其在AI模型完整性方面的保護能力至關(guān)重要。這是一場權(quán)衡:安全與速度,只能二選一。
此外,在云端環(huán)境中,英偉達的MIG和機密計算(CC)技術(shù)通過內(nèi)存隔離,能有效阻止多租戶共享同一DRAM存儲,從而防止Rowhammer類攻擊生效。
評論