AI芯片的供電挑戰(zhàn)
隨著人工智能 (AI) 工作負(fù)載變得越來(lái)越大和越來(lái)越復(fù)雜,為處理所有這些數(shù)據(jù)而開(kāi)發(fā)的各種處理元素需要前所未有的能力。但是,在不降低信號(hào)完整性或引入熱瓶頸的情況下,高效可靠地提供這種電源,已經(jīng)帶來(lái)了半導(dǎo)體歷史上最嚴(yán)峻的設(shè)計(jì)和制造挑戰(zhàn)。
與通用處理器不同,專(zhuān)為 AI 工作負(fù)載設(shè)計(jì)的芯片將密度推向了極端水平。它們將更多的晶體管封裝到更小的封裝中,同時(shí)還增加了晶體管的總數(shù),通常以小芯片的形式。結(jié)果是更大、更密集的系統(tǒng)級(jí)封裝,其中供電不僅僅是一個(gè)電氣問(wèn)題,而且是一個(gè)封裝、材料和系統(tǒng)集成挑戰(zhàn),從單個(gè)小芯片延伸到服務(wù)器機(jī)架。
“功率在很大程度上由動(dòng)態(tài)功率主導(dǎo),主要由計(jì)算和內(nèi)存之間的數(shù)據(jù)移動(dòng)驅(qū)動(dòng),”Synopsys 研究員 Godwin Maben 說(shuō)?!袄?,NVIDIA 的 Blackwell 功率范圍從 700 瓦到 1,400 瓦不等。這使得高效的總線架構(gòu)和架構(gòu)創(chuàng)新(例如數(shù)據(jù)壓縮策略)變得至關(guān)重要。
由于在內(nèi)存和計(jì)算單元之間來(lái)回穿梭的數(shù)據(jù)量很大,因此動(dòng)態(tài)能力占主導(dǎo)地位。這些傳輸使用各種高速互連跨海量?jī)?nèi)存層次結(jié)構(gòu)進(jìn)行。但是,移動(dòng)所有這些數(shù)據(jù)是有代價(jià)的,會(huì)產(chǎn)生級(jí)聯(lián)設(shè)計(jì)約束,從內(nèi)存層次結(jié)構(gòu)決策一直延伸到供電網(wǎng)絡(luò) (PDN)。
“當(dāng)我們轉(zhuǎn)向背面和 3D 堆疊時(shí),熱量變得更加局部化且更難消散,”imec 研發(fā)副總裁 Julien Ryckaert 說(shuō)。“這種物理壓縮加劇了電遷移和局部熱熱點(diǎn)等挑戰(zhàn)?!?/p>
為了在這些級(jí)別上易于處理電力傳輸,多學(xué)科設(shè)計(jì)團(tuán)隊(duì)必須全面考慮電壓的調(diào)節(jié)位置和方式、熱量的提取方式、材料在大電流應(yīng)力下的行為方式,以及它們?cè)陔娺w移和 IR 壓降影響可靠性之前有多少裕量。這些設(shè)計(jì)決策的復(fù)雜性要求 EDA 工具、制造工藝和先進(jìn)封裝之間更加緊密地耦合。
“今天,高性能計(jì)算和 AI 加速器已經(jīng)跨越了千瓦級(jí)的界限,”Synopsys 首席架構(gòu)師 Jay Roy 說(shuō)?!霸O(shè)計(jì)復(fù)雜性的爆炸式增長(zhǎng)和周期的縮短給半導(dǎo)體 SOC 設(shè)計(jì)帶來(lái)了持續(xù)的挑戰(zhàn)?!?/p>
這種在最大限度地降低功耗的同時(shí)擴(kuò)展性能的推動(dòng)迫使電力輸送模式發(fā)生重大變化。這不再只是減少阻力。它涉及對(duì)具有不同膨脹系數(shù)的材料之間的感應(yīng)行為、熱梯度和耦合進(jìn)行建?!,F(xiàn)在,對(duì)電壓降、電流瓶頸和熱熱點(diǎn)的早期預(yù)測(cè)至關(guān)重要,并且必須在實(shí)際布局和集成約束的背景下進(jìn)行。
從橫向到垂直供電
再多的仿真都無(wú)法解決傳統(tǒng)橫向供電的固有局限性。在封裝和印刷電路板上橫向布線大電流電源走線會(huì)帶來(lái)不再擴(kuò)展的損耗和空間限制。當(dāng)芯片消耗 100 或 200 瓦時(shí),這種方法是可行的,但現(xiàn)在它已成為現(xiàn)代 AI 硬件的限制因素。
“當(dāng)前的加速卡通常采用橫向供電架構(gòu),從電源模塊到處理器,在幾厘米長(zhǎng)的 PCB 走線上路由數(shù)千安培的電流,”Saras Micro Devices 首席商務(wù)官 Eelco Bergman 說(shuō)?!坝捎诖箅娏骱妥呔€電阻,這種方法會(huì)導(dǎo)致大量的功率損失和過(guò)多的熱量產(chǎn)生。此外,可用于支持不斷增長(zhǎng)的總功率、電源軌數(shù)量以及關(guān)鍵高速信號(hào)路由的電路板空間是有限的。
圖 1:垂直供電網(wǎng)絡(luò),顯示直接嵌入封裝基板中的多域電容器模塊。來(lái)源:Saras Micro Devices
在這些功率水平下,每一毫歐姆電阻都轉(zhuǎn)化為必須消散的瓦特?zé)崃俊4送?,橫向布線施加的空間限制通常會(huì)在電源完整性和信號(hào)完整性之間造成權(quán)衡。在高帶寬系統(tǒng)中,數(shù)百個(gè)高速 SerDes 通道與密集的電源層共享電路板空間,這些權(quán)衡變得站不住腳。
為了克服這些限制,半導(dǎo)體行業(yè)越來(lái)越多地探索垂直供電。通過(guò)將電源軌或穩(wěn)壓器直接嵌入芯片下方,并用低阻抗路徑垂直連接它們,從源極到硅的距離大大縮小。其結(jié)果是減少了 IR 壓降和噪聲,同時(shí)為關(guān)鍵信號(hào)釋放了頂部路由。
Bergman 補(bǔ)充道:“我們看到客戶正在積極探索具有嵌入式電壓調(diào)節(jié)和集成電容解決方案的垂直供電架構(gòu),這些解決方案可以本地化供電?!斑@些方法釋放了頂部 PCB 空間,減少了寄生損耗,并提高了整體供電性能?!?/p>
在襯底和中介層中使用集成的供電層,以及局部去耦,使 AI 小芯片和加速器能夠獲得更清潔、更穩(wěn)定的功率,同時(shí)減少衰減。先進(jìn)的襯底,包括那些帶有嵌入式無(wú)源器件的襯底,現(xiàn)在正在與硅本身共同設(shè)計(jì),以?xún)?yōu)化阻抗曲線和散熱。
同時(shí),這些技術(shù)也帶來(lái)了新的可靠性挑戰(zhàn)。通過(guò)新材料和垂直結(jié)構(gòu)提供大電流需要對(duì)電流擁擠、熱循環(huán)和材料疲勞進(jìn)行嚴(yán)格的建模。嵌入式功率元件必須能夠承受強(qiáng)熱通量,同時(shí)還要與敏感信號(hào)層保持電氣隔離。這反過(guò)來(lái)又推動(dòng)了介電材料、沉積技術(shù)和協(xié)同設(shè)計(jì)方法的創(chuàng)新。
先進(jìn)的封裝和散熱
高功率密度直接轉(zhuǎn)化為熱密度,這可能會(huì)導(dǎo)致熱點(diǎn),從而降低可靠性并降低性能。如果沒(méi)有先進(jìn)的熱提取技術(shù),即使是最高效的系統(tǒng)也需要熱節(jié)流,這會(huì)大大降低性能。
“如今的先進(jìn)封裝采用多尺度熱管理技術(shù)來(lái)有效地傳播和去除熱量,”Amkor 小芯片和倒裝芯片球柵陣列 (FCBGA) 業(yè)務(wù)部高級(jí)總監(jiān) Gerard John 說(shuō)。“銦合金 TIM 因其約 80 W/m-K 的高導(dǎo)熱性而特別有效。然而,銦 TIM 需要芯片背面和蓋子底面的金屬化,通常使用 Ti/Au 或 Ni/Au 等材料?;亓骱腹に噷?duì)于在芯片和蓋子之間形成粘合是必要的,這有助于降低界面阻力。
最小化芯片和散熱器之間的熱阻取決于材料和應(yīng)用技術(shù)。均勻的 TIM 覆蓋率和低空隙率加工對(duì)于實(shí)現(xiàn)整個(gè)芯片的一致散熱至關(guān)重要。傳統(tǒng)的基于焊料的 TIM 正在被高性能金屬合金、相變材料和新型碳基界面所取代或補(bǔ)充。
“確保 TIM 應(yīng)用中的最小空隙至關(guān)重要,”John 說(shuō)?!翱障稌?huì)嚴(yán)重阻礙導(dǎo)熱性,導(dǎo)致熱點(diǎn)和器件可靠性降低。監(jiān)測(cè) TIM 空隙對(duì)于工藝優(yōu)化和設(shè)備篩選至關(guān)重要。
這些解決方案通常是針對(duì)特定工作負(fù)載量身定制的。例如,AI 訓(xùn)練產(chǎn)生的持續(xù)功率爆發(fā)比推理更長(zhǎng),并且需要不同的熱瞬態(tài)響應(yīng)。包裝工程師必須與系統(tǒng)架構(gòu)師合作,以確保冷卻解決方案與實(shí)際作配置文件相匹配。
“TIM 的選擇通?;谠O(shè)備功率圖,這些圖顯示了高熱量產(chǎn)生區(qū)域,”John 指出?!巴ㄟ^(guò)將 TIM 屬性與這些映射相匹配,可以實(shí)現(xiàn)最佳熱管理,確保整個(gè)器件的高效散熱?!?/p>
在多芯片系統(tǒng)中,熱邏輯模塊的接近會(huì)放大熱挑戰(zhàn)。先進(jìn)的設(shè)計(jì)正在轉(zhuǎn)向均溫板、微流體冷卻和雙面熱提取來(lái)管理這種復(fù)雜性。每種方法都引入了新的制造、可靠性和材料集成障礙,但它們正迅速成為大規(guī)模實(shí)現(xiàn) AI 性能的重要工具。
鉬和材料遷移
隨著 AI 加速器需要更大的功率和更緊密的集成,傳統(tǒng)的前端材料正在顯現(xiàn)其老化。鎢和銅廣泛用于局部互連和觸點(diǎn)一直是其導(dǎo)電性和可制造性的行業(yè)標(biāo)準(zhǔn),但現(xiàn)在它對(duì)芯片最致密的部分施加了限制。
這就是鉬成為關(guān)鍵替代金屬的地方。鉬的電子平均自由程比銅短,在狹窄幾何形狀中的可擴(kuò)展性比鎢好,在先進(jìn)節(jié)點(diǎn)的電阻率和可制造性方面都有了明顯的改善。
“從傳統(tǒng)的鎢金屬化過(guò)渡到鉬提供了實(shí)質(zhì)性的性能改進(jìn),包括將接觸電阻降低多達(dá) 50%,”Lam Research 公司副總裁兼總經(jīng)理 Kaihan Ashtiani 說(shuō)。“鉬的電子平均自由程較短,使其更適合更小的尺寸,顯著減少了緊密排列的互連結(jié)構(gòu)中的電阻問(wèn)題?!?/p>
這在實(shí)踐中意味著鉬在局部互連中變得特別有利,其中線寬和間距現(xiàn)在低于 20nm。在這些尺寸下,鎢等傳統(tǒng)金屬的電子散射增加,從而導(dǎo)致更高的有效電阻率和熱負(fù)荷。相比之下,鉬在受限幾何形狀中保持良好的導(dǎo)電行為。
對(duì)于 AI 設(shè)備,此屬性至關(guān)重要。隨著更多的功能被封裝在更小的平方毫米中,以及垂直堆疊變得越來(lái)越普遍,熱量和電阻越來(lái)越局限。鉬等材料創(chuàng)新通過(guò)提高電氣性能并簡(jiǎn)化與原子層沉積 (ALD) 和化學(xué)氣相沉積 (CVD) 工藝的集成,幫助減輕這些影響,這些工藝在尖端晶圓廠中已經(jīng)很常見(jiàn)。
“當(dāng)互連尺寸縮小到銅等金屬的平均自由程以下時(shí),由于電子散射更頻繁,電阻會(huì)增加,”Ashtiani 說(shuō)。“在這些情況下,像鉬這樣的金屬,具有較短的平均自由程,實(shí)際上變得更有利,因?yàn)樗谳^小的尺度上保持較低的電阻?!?/p>
向鉬的轉(zhuǎn)變也與更廣泛的行業(yè)努力降低電遷移風(fēng)險(xiǎn)相一致。在 AI 工作負(fù)載中常見(jiàn)的高電流密度下,金屬遷移會(huì)隨著時(shí)間的推移產(chǎn)生空隙和開(kāi)路,這是對(duì)可靠性的日益關(guān)注的問(wèn)題。鉬的高熔點(diǎn)和晶粒穩(wěn)定性有助于抵消這一點(diǎn),使其成為長(zhǎng)壽命 AI 計(jì)算應(yīng)用的有力候選者。
雖然尚未普及,但鉬的采用正在加速,尤其是在 GPU 矩陣引擎和 SRAM 陣列等功率密度極高的應(yīng)用中。它還在包含背面供電的設(shè)備中越來(lái)越受歡迎,其中金屬化層的復(fù)雜性需要高度保形和低電阻率的材料。
背面供電
也許當(dāng)今芯片架構(gòu)最具變革性的轉(zhuǎn)變是轉(zhuǎn)向背面供電網(wǎng)絡(luò) (BSPDN)。BSPDN 不是通過(guò)爭(zhēng)奪空間的頂部金屬層來(lái)路由電源和信號(hào),而是通過(guò)在晶圓的底部引入電源連接來(lái)解耦這些功能。
最初的概念最初由 Intel 宣傳為“Power vias”,此后演變?yōu)檎麄€(gè)行業(yè)采用的更廣泛的技術(shù)類(lèi)別。從本質(zhì)上講,晶圓的背面被蝕刻以露出觸點(diǎn),然后用于直接向晶體管供電,繞過(guò)信號(hào)路由堆棧并顯著提高效率。
“背面供電始于將電源過(guò)孔蝕刻到硅中,以提供從背面直接供電,這有助于降低阻抗,”imec 的 Ryck?ert 說(shuō)。“從兩側(cè)處理晶圓為器件擴(kuò)展和布線密度開(kāi)辟了新的機(jī)會(huì),盡管由于去除了作為散熱器的硅,它也帶來(lái)了熱挑戰(zhàn)。”
這種結(jié)構(gòu)重組為 AI 芯片提供了幾個(gè)關(guān)鍵優(yōu)勢(shì)。首先,通過(guò)分離電源和信號(hào)布線,工程師在布局規(guī)劃和時(shí)序優(yōu)化方面獲得了更大的靈活性。信號(hào)層可以擴(kuò)展或微調(diào),而無(wú)需擔(dān)心功率分配限制。其次,它使電網(wǎng)更薄、更均勻,從而減少了 IR 壓降,使電壓調(diào)節(jié)更具可預(yù)測(cè)性。
“電力輸送曾經(jīng)是眾多考慮因素之一,”Ryckaert 補(bǔ)充道?!艾F(xiàn)在它塑造了整個(gè)平面圖。背面 PDN 有助于緩解布線擁堵并實(shí)現(xiàn)更高的晶體管密度,但它們也增加了功率密度,這使得熱管理比以往任何時(shí)候都更加重要。
此外,背面加工引入了新的冷卻選項(xiàng)。由于硅襯底不再是散熱的屏障,因此設(shè)計(jì)人員可以實(shí)施雙面冷卻策略,其中熱界面應(yīng)用于芯片的兩側(cè)。
然而,反向供電并非沒(méi)有挑戰(zhàn)。它需要全新的工藝流程和材料進(jìn)步,包括晶圓減薄、硅通孔 (TSV) 對(duì)準(zhǔn)、混合鍵合和處理極其脆弱的芯片。這些結(jié)構(gòu)的機(jī)械可靠性仍在研究中,產(chǎn)量?jī)?yōu)化仍然是大批量采用的障礙。
設(shè)計(jì)協(xié)同優(yōu)化和系統(tǒng)級(jí)影響
盡管背板電源、鉬互連和垂直 PDN 的技術(shù)前景廣闊,但這些進(jìn)步都不是孤立發(fā)生的。下一代 AI 芯片將需要在整個(gè)設(shè)計(jì)堆棧中采用更緊密集成的方法,使用通常所說(shuō)的系統(tǒng)技術(shù)協(xié)同優(yōu)化 (STCO)。
在此模型中,芯片架構(gòu)師、封裝工程師和系統(tǒng)設(shè)計(jì)人員從最早的設(shè)計(jì)階段開(kāi)始協(xié)作。輸電網(wǎng)絡(luò)、熱分布、機(jī)械應(yīng)力和平面圖必須建模為相互依賴(lài)的系統(tǒng),而不是流程中的連續(xù)步驟。
“功耗感知協(xié)同設(shè)計(jì)越來(lái)越重要,”Synopsys 的 Maben 說(shuō)?!八兄谄胶鉄嵝阅芘c時(shí)序收斂,使客戶能夠在最終產(chǎn)品中實(shí)現(xiàn)更高的效率和可靠性?!?/p>
在系統(tǒng)級(jí)別,這些優(yōu)化具有廣泛的后果。例如,熱節(jié)流是 AI 芯片性能面臨的最大威脅之一。如果沒(méi)有對(duì)局部加熱進(jìn)行有效預(yù)測(cè)和緩解,否則設(shè)計(jì)良好的系統(tǒng)在現(xiàn)場(chǎng)可能會(huì)表現(xiàn)不佳。
“上游輸電效率的邊際提高可以防止下游的熱降解,”Synopsys 的 Roy 說(shuō)?!澳繕?biāo)是讓工程師及早了解這些系統(tǒng)如何交互,以便可靠性是內(nèi)置的,而不是附加的?!?/p>
這的影響遠(yuǎn)遠(yuǎn)超出了模具。系統(tǒng)集成商必須考慮整個(gè)堆棧(芯片、中介層、基板和 PCB)的 PDN 阻抗。信號(hào)完整性、板級(jí)去耦和外殼級(jí)氣流都會(huì)影響高能效芯片在實(shí)際應(yīng)用中是否按預(yù)期運(yùn)行。
這些約束提高了協(xié)同仿真和跨域反饋循環(huán)的重要性。電壓完整性和電磁干擾 (EMI) 現(xiàn)在與熱仿真、材料建模和功耗感知驗(yàn)證直接交叉。作為回應(yīng),一些芯片制造商正在將封裝和系統(tǒng)工程團(tuán)隊(duì)引入內(nèi)部,或?qū)⑺麄兦度胄酒O(shè)計(jì)團(tuán)隊(duì),以加快迭代并確保一致性。
除了技術(shù)協(xié)調(diào)之外,經(jīng)濟(jì)激勵(lì)還推動(dòng)了協(xié)同優(yōu)化。通過(guò)添加多余的電容、更寬的電源層或過(guò)度設(shè)計(jì)的 VRM 來(lái)過(guò)度配置供電系統(tǒng)會(huì)消耗電路板面積和資源,否則這些資源可能會(huì)用于計(jì)算。
“減少 IR 壓降和提高輸電效率直接轉(zhuǎn)化為更少的熱量和更低的冷卻成本,”Saras 的 Bergman 說(shuō)?!斑@是超大規(guī)模數(shù)據(jù)中心的直接成本優(yōu)勢(shì)?!?/p>
結(jié)論
隨著 AI 需求的增長(zhǎng),優(yōu)化每一瓦特和交付它所花費(fèi)的每一美元的壓力只會(huì)越來(lái)越大。這意味著電力輸送不再是后端考慮因素。它已成為塑造 AI 芯片設(shè)計(jì)和制造方式的一線約束。隨著 AI 芯片進(jìn)入千瓦級(jí)市場(chǎng),該行業(yè)必須重新考慮從材料到平面圖、晶圓鍵合到散熱的方方面面。背面供電網(wǎng)絡(luò)、鉬互連和垂直集成基板等創(chuàng)新只是一個(gè)開(kāi)始。
AI 芯片的供電之路需要跨學(xué)科的深度合作。隨著工程師面對(duì)下一代電力輸送的多物理場(chǎng)性質(zhì),圍繞硅、封裝和系統(tǒng)設(shè)計(jì)構(gòu)建的孤島正在瓦解。雖然這些解決方案的成本和復(fù)雜性很高,但以性能、效率和可擴(kuò)展性衡量的回報(bào)將是巨大的。
評(píng)論