新聞中心

AI芯片的供電挑戰(zhàn)

—— 不斷上升的功率密度和新的架構(gòu)迫使人們重新思考互連、材料和熱管理。
作者: 時(shí)間:2025-07-04 來(lái)源: 收藏

隨著人工智能 (AI) 工作負(fù)載變得越來(lái)越大和越來(lái)越復(fù)雜,為處理所有這些數(shù)據(jù)而開(kāi)發(fā)的各種處理元素需要前所未有的能力。但是,在不降低信號(hào)完整性或引入熱瓶頸的情況下,高效可靠地提供這種電源,已經(jīng)帶來(lái)了半導(dǎo)體歷史上最嚴(yán)峻的設(shè)計(jì)和制造挑戰(zhàn)。

與通用處理器不同,專(zhuān)為 AI 工作負(fù)載設(shè)計(jì)的芯片將密度推向了極端水平。它們將更多的晶體管封裝到更小的封裝中,同時(shí)還增加了晶體管的總數(shù),通常以小芯片的形式。結(jié)果是更大、更密集的系統(tǒng)級(jí)封裝,其中不僅僅是一個(gè)電氣問(wèn)題,而且是一個(gè)封裝、材料和系統(tǒng)集成挑戰(zhàn),從單個(gè)小芯片延伸到服務(wù)器機(jī)架。

“功率在很大程度上由動(dòng)態(tài)功率主導(dǎo),主要由計(jì)算和內(nèi)存之間的數(shù)據(jù)移動(dòng)驅(qū)動(dòng),” 研究員 Godwin Maben 說(shuō)?!袄?,NVIDIA 的 Blackwell 功率范圍從 700 瓦到 1,400 瓦不等。這使得高效的總線架構(gòu)和架構(gòu)創(chuàng)新(例如數(shù)據(jù)壓縮策略)變得至關(guān)重要。

由于在內(nèi)存和計(jì)算單元之間來(lái)回穿梭的數(shù)據(jù)量很大,因此動(dòng)態(tài)能力占主導(dǎo)地位。這些傳輸使用各種高速互連跨海量?jī)?nèi)存層次結(jié)構(gòu)進(jìn)行。但是,移動(dòng)所有這些數(shù)據(jù)是有代價(jià)的,會(huì)產(chǎn)生級(jí)聯(lián)設(shè)計(jì)約束,從內(nèi)存層次結(jié)構(gòu)決策一直延伸到網(wǎng)絡(luò) (PDN)。

“當(dāng)我們轉(zhuǎn)向背面和 3D 堆疊時(shí),熱量變得更加局部化且更難消散,”imec 研發(fā)副總裁 Julien Ryckaert 說(shuō)。“這種物理壓縮加劇了電遷移和局部熱熱點(diǎn)等挑戰(zhàn)?!?/p>

為了在這些級(jí)別上易于處理電力傳輸,多學(xué)科設(shè)計(jì)團(tuán)隊(duì)必須全面考慮電壓的調(diào)節(jié)位置和方式、熱量的提取方式、材料在大電流應(yīng)力下的行為方式,以及它們?cè)陔娺w移和 IR 壓降影響可靠性之前有多少裕量。這些設(shè)計(jì)決策的復(fù)雜性要求 EDA 工具、制造工藝和先進(jìn)封裝之間更加緊密地耦合。

“今天,高性能計(jì)算和 AI 加速器已經(jīng)跨越了千瓦級(jí)的界限,” 首席架構(gòu)師 Jay Roy 說(shuō)?!霸O(shè)計(jì)復(fù)雜性的爆炸式增長(zhǎng)和周期的縮短給半導(dǎo)體 SOC 設(shè)計(jì)帶來(lái)了持續(xù)的挑戰(zhàn)?!?/p>

這種在最大限度地降低功耗的同時(shí)擴(kuò)展性能的推動(dòng)迫使電力輸送模式發(fā)生重大變化。這不再只是減少阻力。它涉及對(duì)具有不同膨脹系數(shù)的材料之間的感應(yīng)行為、熱梯度和耦合進(jìn)行建?!,F(xiàn)在,對(duì)電壓降、電流瓶頸和熱熱點(diǎn)的早期預(yù)測(cè)至關(guān)重要,并且必須在實(shí)際布局和集成約束的背景下進(jìn)行。

從橫向到垂直
再多的仿真都無(wú)法解決傳統(tǒng)橫向供電的固有局限性。在封裝和印刷電路板上橫向布線大電流電源走線會(huì)帶來(lái)不再擴(kuò)展的損耗和空間限制。當(dāng)芯片消耗 100 或 200 瓦時(shí),這種方法是可行的,但現(xiàn)在它已成為現(xiàn)代 AI 硬件的限制因素。

“當(dāng)前的加速卡通常采用橫向供電架構(gòu),從電源模塊到處理器,在幾厘米長(zhǎng)的 PCB 走線上路由數(shù)千安培的電流,”Saras Micro Devices 首席商務(wù)官 Eelco Bergman 說(shuō)?!坝捎诖箅娏骱妥呔€電阻,這種方法會(huì)導(dǎo)致大量的功率損失和過(guò)多的熱量產(chǎn)生。此外,可用于支持不斷增長(zhǎng)的總功率、電源軌數(shù)量以及關(guān)鍵高速信號(hào)路由的電路板空間是有限的。

At these power levels, every milliohm of resistance translates into watts of heat that must be dissipated. Moreover, the spatial constraints imposed by lateral routing often create tradeoffs between power integrity and signal integrity. In high-bandwidth systems, where hundreds of high-speed SerDes lanes share board space with dense power planes, these tradeoffs become untenable.
圖 1:垂直供電網(wǎng)絡(luò),顯示直接嵌入封裝基板中的多域電容器模塊。來(lái)源:Saras Micro Devices

在這些功率水平下,每一毫歐姆電阻都轉(zhuǎn)化為必須消散的瓦特?zé)崃俊4送?,橫向布線施加的空間限制通常會(huì)在電源完整性和信號(hào)完整性之間造成權(quán)衡。在高帶寬系統(tǒng)中,數(shù)百個(gè)高速 SerDes 通道與密集的電源層共享電路板空間,這些權(quán)衡變得站不住腳。

為了克服這些限制,半導(dǎo)體行業(yè)越來(lái)越多地探索垂直供電。通過(guò)將電源軌或穩(wěn)壓器直接嵌入芯片下方,并用低阻抗路徑垂直連接它們,從源極到硅的距離大大縮小。其結(jié)果是減少了 IR 壓降和噪聲,同時(shí)為關(guān)鍵信號(hào)釋放了頂部路由。

Bergman 補(bǔ)充道:“我們看到客戶正在積極探索具有嵌入式電壓調(diào)節(jié)和集成電容解決方案的垂直供電架構(gòu),這些解決方案可以本地化供電?!斑@些方法釋放了頂部 PCB 空間,減少了寄生損耗,并提高了整體供電性能?!?/p>

在襯底和中介層中使用集成的供電層,以及局部去耦,使 AI 小芯片和加速器能夠獲得更清潔、更穩(wěn)定的功率,同時(shí)減少衰減。先進(jìn)的襯底,包括那些帶有嵌入式無(wú)源器件的襯底,現(xiàn)在正在與硅本身共同設(shè)計(jì),以?xún)?yōu)化阻抗曲線和散熱。

同時(shí),這些技術(shù)也帶來(lái)了新的可靠性挑戰(zhàn)。通過(guò)新材料和垂直結(jié)構(gòu)提供大電流需要對(duì)電流擁擠、熱循環(huán)和材料疲勞進(jìn)行嚴(yán)格的建模。嵌入式功率元件必須能夠承受強(qiáng)熱通量,同時(shí)還要與敏感信號(hào)層保持電氣隔離。這反過(guò)來(lái)又推動(dòng)了介電材料、沉積技術(shù)和協(xié)同設(shè)計(jì)方法的創(chuàng)新。

先進(jìn)的封裝和散熱
高功率密度直接轉(zhuǎn)化為熱密度,這可能會(huì)導(dǎo)致熱點(diǎn),從而降低可靠性并降低性能。如果沒(méi)有先進(jìn)的熱提取技術(shù),即使是最高效的系統(tǒng)也需要熱節(jié)流,這會(huì)大大降低性能。

“如今的先進(jìn)封裝采用多尺度熱管理技術(shù)來(lái)有效地傳播和去除熱量,”Amkor 小芯片和倒裝芯片球柵陣列 (FCBGA) 業(yè)務(wù)部高級(jí)總監(jiān) Gerard John 說(shuō)。“銦合金 TIM 因其約 80 W/m-K 的高導(dǎo)熱性而特別有效。然而,銦 TIM 需要芯片背面和蓋子底面的金屬化,通常使用 Ti/Au 或 Ni/Au 等材料?;亓骱腹に噷?duì)于在芯片和蓋子之間形成粘合是必要的,這有助于降低界面阻力。

最小化芯片和散熱器之間的熱阻取決于材料和應(yīng)用技術(shù)。均勻的 TIM 覆蓋率和低空隙率加工對(duì)于實(shí)現(xiàn)整個(gè)芯片的一致散熱至關(guān)重要。傳統(tǒng)的基于焊料的 TIM 正在被高性能金屬合金、相變材料和新型碳基界面所取代或補(bǔ)充。

“確保 TIM 應(yīng)用中的最小空隙至關(guān)重要,”John 說(shuō)?!翱障稌?huì)嚴(yán)重阻礙導(dǎo)熱性,導(dǎo)致熱點(diǎn)和器件可靠性降低。監(jiān)測(cè) TIM 空隙對(duì)于工藝優(yōu)化和設(shè)備篩選至關(guān)重要。

這些解決方案通常是針對(duì)特定工作負(fù)載量身定制的。例如,AI 訓(xùn)練產(chǎn)生的持續(xù)功率爆發(fā)比推理更長(zhǎng),并且需要不同的熱瞬態(tài)響應(yīng)。包裝工程師必須與系統(tǒng)架構(gòu)師合作,以確保冷卻解決方案與實(shí)際作配置文件相匹配。

“TIM 的選擇通?;谠O(shè)備功率圖,這些圖顯示了高熱量產(chǎn)生區(qū)域,”John 指出?!巴ㄟ^(guò)將 TIM 屬性與這些映射相匹配,可以實(shí)現(xiàn)最佳熱管理,確保整個(gè)器件的高效散熱?!?/p>

在多芯片系統(tǒng)中,熱邏輯模塊的接近會(huì)放大熱挑戰(zhàn)。先進(jìn)的設(shè)計(jì)正在轉(zhuǎn)向均溫板、微流體冷卻和雙面熱提取來(lái)管理這種復(fù)雜性。每種方法都引入了新的制造、可靠性和材料集成障礙,但它們正迅速成為大規(guī)模實(shí)現(xiàn) AI 性能的重要工具。

鉬和材料遷移
隨著 AI 加速器需要更大的功率和更緊密的集成,傳統(tǒng)的前端材料正在顯現(xiàn)其老化。鎢和銅廣泛用于局部互連和觸點(diǎn)一直是其導(dǎo)電性和可制造性的行業(yè)標(biāo)準(zhǔn),但現(xiàn)在它對(duì)芯片最致密的部分施加了限制。

這就是鉬成為關(guān)鍵替代金屬的地方。鉬的電子平均自由程比銅短,在狹窄幾何形狀中的可擴(kuò)展性比鎢好,在先進(jìn)節(jié)點(diǎn)的電阻率和可制造性方面都有了明顯的改善。

“從傳統(tǒng)的鎢金屬化過(guò)渡到鉬提供了實(shí)質(zhì)性的性能改進(jìn),包括將接觸電阻降低多達(dá) 50%,”Lam Research 公司副總裁兼總經(jīng)理 Kaihan Ashtiani 說(shuō)。“鉬的電子平均自由程較短,使其更適合更小的尺寸,顯著減少了緊密排列的互連結(jié)構(gòu)中的電阻問(wèn)題?!?/p>

這在實(shí)踐中意味著鉬在局部互連中變得特別有利,其中線寬和間距現(xiàn)在低于 20nm。在這些尺寸下,鎢等傳統(tǒng)金屬的電子散射增加,從而導(dǎo)致更高的有效電阻率和熱負(fù)荷。相比之下,鉬在受限幾何形狀中保持良好的導(dǎo)電行為。

對(duì)于 AI 設(shè)備,此屬性至關(guān)重要。隨著更多的功能被封裝在更小的平方毫米中,以及垂直堆疊變得越來(lái)越普遍,熱量和電阻越來(lái)越局限。鉬等材料創(chuàng)新通過(guò)提高電氣性能并簡(jiǎn)化與原子層沉積 (ALD) 和化學(xué)氣相沉積 (CVD) 工藝的集成,幫助減輕這些影響,這些工藝在尖端晶圓廠中已經(jīng)很常見(jiàn)。

“當(dāng)互連尺寸縮小到銅等金屬的平均自由程以下時(shí),由于電子散射更頻繁,電阻會(huì)增加,”Ashtiani 說(shuō)。“在這些情況下,像鉬這樣的金屬,具有較短的平均自由程,實(shí)際上變得更有利,因?yàn)樗谳^小的尺度上保持較低的電阻?!?/p>

向鉬的轉(zhuǎn)變也與更廣泛的行業(yè)努力降低電遷移風(fēng)險(xiǎn)相一致。在 AI 工作負(fù)載中常見(jiàn)的高電流密度下,金屬遷移會(huì)隨著時(shí)間的推移產(chǎn)生空隙和開(kāi)路,這是對(duì)可靠性的日益關(guān)注的問(wèn)題。鉬的高熔點(diǎn)和晶粒穩(wěn)定性有助于抵消這一點(diǎn),使其成為長(zhǎng)壽命 AI 計(jì)算應(yīng)用的有力候選者。

雖然尚未普及,但鉬的采用正在加速,尤其是在 GPU 矩陣引擎和 SRAM 陣列等功率密度極高的應(yīng)用中。它還在包含背面供電的設(shè)備中越來(lái)越受歡迎,其中金屬化層的復(fù)雜性需要高度保形和低電阻率的材料。

背面供電
也許當(dāng)今芯片架構(gòu)最具變革性的轉(zhuǎn)變是轉(zhuǎn)向背面供電網(wǎng)絡(luò) (BSPDN)。BSPDN 不是通過(guò)爭(zhēng)奪空間的頂部金屬層來(lái)路由電源和信號(hào),而是通過(guò)在晶圓的底部引入電源連接來(lái)解耦這些功能。

最初的概念最初由 Intel 宣傳為“Power vias”,此后演變?yōu)檎麄€(gè)行業(yè)采用的更廣泛的技術(shù)類(lèi)別。從本質(zhì)上講,晶圓的背面被蝕刻以露出觸點(diǎn),然后用于直接向晶體管供電,繞過(guò)信號(hào)路由堆棧并顯著提高效率。

“背面供電始于將電源過(guò)孔蝕刻到硅中,以提供從背面直接供電,這有助于降低阻抗,”imec 的 Ryck?ert 說(shuō)。“從兩側(cè)處理晶圓為器件擴(kuò)展和布線密度開(kāi)辟了新的機(jī)會(huì),盡管由于去除了作為散熱器的硅,它也帶來(lái)了熱挑戰(zhàn)。”

這種結(jié)構(gòu)重組為 AI 芯片提供了幾個(gè)關(guān)鍵優(yōu)勢(shì)。首先,通過(guò)分離電源和信號(hào)布線,工程師在布局規(guī)劃和時(shí)序優(yōu)化方面獲得了更大的靈活性。信號(hào)層可以擴(kuò)展或微調(diào),而無(wú)需擔(dān)心功率分配限制。其次,它使電網(wǎng)更薄、更均勻,從而減少了 IR 壓降,使電壓調(diào)節(jié)更具可預(yù)測(cè)性。

“電力輸送曾經(jīng)是眾多考慮因素之一,”Ryckaert 補(bǔ)充道?!艾F(xiàn)在它塑造了整個(gè)平面圖。背面 PDN 有助于緩解布線擁堵并實(shí)現(xiàn)更高的晶體管密度,但它們也增加了功率密度,這使得熱管理比以往任何時(shí)候都更加重要。

此外,背面加工引入了新的冷卻選項(xiàng)。由于硅襯底不再是散熱的屏障,因此設(shè)計(jì)人員可以實(shí)施雙面冷卻策略,其中熱界面應(yīng)用于芯片的兩側(cè)。

然而,反向供電并非沒(méi)有挑戰(zhàn)。它需要全新的工藝流程和材料進(jìn)步,包括晶圓減薄、硅通孔 (TSV) 對(duì)準(zhǔn)、混合鍵合和處理極其脆弱的芯片。這些結(jié)構(gòu)的機(jī)械可靠性仍在研究中,產(chǎn)量?jī)?yōu)化仍然是大批量采用的障礙。

設(shè)計(jì)協(xié)同優(yōu)化和系統(tǒng)級(jí)影響
盡管背板電源、鉬互連和垂直 PDN 的技術(shù)前景廣闊,但這些進(jìn)步都不是孤立發(fā)生的。下一代 AI 芯片將需要在整個(gè)設(shè)計(jì)堆棧中采用更緊密集成的方法,使用通常所說(shuō)的系統(tǒng)技術(shù)協(xié)同優(yōu)化 (STCO)。

在此模型中,芯片架構(gòu)師、封裝工程師和系統(tǒng)設(shè)計(jì)人員從最早的設(shè)計(jì)階段開(kāi)始協(xié)作。輸電網(wǎng)絡(luò)、熱分布、機(jī)械應(yīng)力和平面圖必須建模為相互依賴(lài)的系統(tǒng),而不是流程中的連續(xù)步驟。

“功耗感知協(xié)同設(shè)計(jì)越來(lái)越重要,” 的 Maben 說(shuō)?!八兄谄胶鉄嵝阅芘c時(shí)序收斂,使客戶能夠在最終產(chǎn)品中實(shí)現(xiàn)更高的效率和可靠性?!?/p>

在系統(tǒng)級(jí)別,這些優(yōu)化具有廣泛的后果。例如,熱節(jié)流是 AI 芯片性能面臨的最大威脅之一。如果沒(méi)有對(duì)局部加熱進(jìn)行有效預(yù)測(cè)和緩解,否則設(shè)計(jì)良好的系統(tǒng)在現(xiàn)場(chǎng)可能會(huì)表現(xiàn)不佳。

“上游輸電效率的邊際提高可以防止下游的熱降解,”Synopsys 的 Roy 說(shuō)?!澳繕?biāo)是讓工程師及早了解這些系統(tǒng)如何交互,以便可靠性是內(nèi)置的,而不是附加的?!?/p>

這的影響遠(yuǎn)遠(yuǎn)超出了模具。系統(tǒng)集成商必須考慮整個(gè)堆棧(芯片、中介層、基板和 PCB)的 PDN 阻抗。信號(hào)完整性、板級(jí)去耦和外殼級(jí)氣流都會(huì)影響高能效芯片在實(shí)際應(yīng)用中是否按預(yù)期運(yùn)行。

這些約束提高了協(xié)同仿真和跨域反饋循環(huán)的重要性。電壓完整性和電磁干擾 (EMI) 現(xiàn)在與熱仿真、材料建模和功耗感知驗(yàn)證直接交叉。作為回應(yīng),一些芯片制造商正在將封裝和系統(tǒng)工程團(tuán)隊(duì)引入內(nèi)部,或?qū)⑺麄兦度胄酒O(shè)計(jì)團(tuán)隊(duì),以加快迭代并確保一致性。

除了技術(shù)協(xié)調(diào)之外,經(jīng)濟(jì)激勵(lì)還推動(dòng)了協(xié)同優(yōu)化。通過(guò)添加多余的電容、更寬的電源層或過(guò)度設(shè)計(jì)的 VRM 來(lái)過(guò)度配置供電系統(tǒng)會(huì)消耗電路板面積和資源,否則這些資源可能會(huì)用于計(jì)算。

“減少 IR 壓降和提高輸電效率直接轉(zhuǎn)化為更少的熱量和更低的冷卻成本,”Saras 的 Bergman 說(shuō)?!斑@是超大規(guī)模數(shù)據(jù)中心的直接成本優(yōu)勢(shì)?!?/p>

結(jié)論
隨著 AI 需求的增長(zhǎng),優(yōu)化每一瓦特和交付它所花費(fèi)的每一美元的壓力只會(huì)越來(lái)越大。這意味著電力輸送不再是后端考慮因素。它已成為塑造 AI 芯片設(shè)計(jì)和制造方式的一線約束。隨著 AI 芯片進(jìn)入千瓦級(jí)市場(chǎng),該行業(yè)必須重新考慮從材料到平面圖、晶圓鍵合到散熱的方方面面。背面供電網(wǎng)絡(luò)、鉬互連和垂直集成基板等創(chuàng)新只是一個(gè)開(kāi)始。

AI 芯片的供電之路需要跨學(xué)科的深度合作。隨著工程師面對(duì)下一代電力輸送的多物理場(chǎng)性質(zhì),圍繞硅、封裝和系統(tǒng)設(shè)計(jì)構(gòu)建的孤島正在瓦解。雖然這些解決方案的成本和復(fù)雜性很高,但以性能、效率和可擴(kuò)展性衡量的回報(bào)將是巨大的。



關(guān)鍵詞: AI芯片 供電 Synopsys

評(píng)論


相關(guān)推薦

技術(shù)專(zhuān)區(qū)

關(guān)閉