HBM,爆炸式增長
高帶寬內(nèi)存(HBM)是下一代 DRAM(動態(tài)隨機存取存儲器)技術(shù),可實現(xiàn)超高速和寬數(shù)據(jù)傳輸。
HBM 的核心創(chuàng)新在于其獨特的 3D 堆疊結(jié)構(gòu),其中多個 DRAM 芯片(4 層、8 層甚至 12 層)使用先進的封裝技術(shù)垂直堆疊。3D 結(jié)構(gòu)使 HBM 能夠以比 GDDR 等傳統(tǒng)內(nèi)存解決方案高得多的帶寬(數(shù)據(jù)傳輸速率)運行。
可以這樣想:HBM 不是將所有內(nèi)存芯片并排布置在平板上,而是將它們像多層建筑一樣堆疊起來。這種垂直集成與復(fù)雜的電氣連接相結(jié)合,為數(shù)據(jù)創(chuàng)造了一條高速公路,從而能夠更快、更高效地與處理器進行通信。
HBM 3D 結(jié)構(gòu)(來源:Semiconductor Engineering)
為什么高帶寬內(nèi)存(HBM)對 AI 至關(guān)重要?
根據(jù) IDTechEx 的報告,全球 HBM 市場將在未來十年內(nèi)增長 15 倍。這種爆炸式增長的核心在于高帶寬內(nèi)存(HBM)以超高帶寬和低延遲為圖形處理單元(GPU)提供海量數(shù)據(jù)流的獨特能力。
GPU 與中央處理器
CPU(中央處理器)托管少數(shù)針對順序、邏輯復(fù)雜的任務(wù)進行了優(yōu)化的復(fù)雜內(nèi)核,而 GPU 則擁有數(shù)千個旨在并行處理數(shù)據(jù)的簡單內(nèi)核。每個 CPU 核心都具有強大的單線程性能和復(fù)雜的控制邏輯。然而,現(xiàn)代 AI 訓練和推理涉及處理數(shù) TB 的參數(shù)和中間激活,遠遠超出了幾個 CPU 內(nèi)核可以有效處理的范圍。
GPU 專為圖形渲染和視頻編碼而設(shè)計,因此它們可以同時或并行處理大量相對簡單的計算。這種大規(guī)模并行架構(gòu)使 GPU 成為 AI 訓練和推理的完美之選,這涉及以相對規(guī)則的計算模式(一次進行數(shù)百萬次乘加運算)處理大量數(shù)據(jù)集。這就是為什么 GPU 成為 AI 加速器的核心芯片。
CPU 與 GPU 的比較(來源:Layerstack)
內(nèi)存帶寬決定 GPU 速度
內(nèi)存帶寬是指內(nèi)存子系統(tǒng)每單位時間(通常為每秒)可以傳輸?shù)臄?shù)據(jù)總量。它直接測量處理器(如 CPU 或 GPU)從連接的內(nèi)存(DRAM)讀取數(shù)據(jù)或?qū)⒔Y(jié)果寫入其的速度。
例如,如果內(nèi)存系統(tǒng)每秒可以可靠地傳輸 100GB 的數(shù)據(jù),則其帶寬為 100GB/s。您可以使用以下公式粗略估計帶寬:
內(nèi)存帶寬(GB/s)= [總線寬度(位)× 有效傳輸速率(GT/s) ] ÷ 8
Bus Width (bit)(總線寬度(位)):內(nèi)存接口一次可以并行傳輸多少位數(shù)據(jù)。更寬的公交車就像在數(shù)據(jù)高速公路上擁有更多的車道。例如,HBM2E 的接口寬度可以達到 1024 位或更高,遠遠超過 GDDR6 的 32 位。
有效傳輸速率(Hz / GT/s):每秒數(shù)據(jù)傳輸作數(shù)?,F(xiàn)代高速內(nèi)存(如 GDDR、HBM)通常使用雙倍數(shù)據(jù)速率(DDR)或四倍數(shù)據(jù)速率(QDR)技術(shù),在時鐘信號的上升沿和下降沿傳輸數(shù)據(jù)。
為了實現(xiàn)更高的內(nèi)存帶寬,您需要高有效傳輸速率(數(shù)據(jù)「運行速度快」)和寬總線寬度(許多「數(shù)據(jù)通道」)。
為什么 HBM 的 Ultra-Wide Bus 解決了內(nèi)存瓶頸
在 AI 應(yīng)用程序中,模型的參數(shù)可能為數(shù)百 GB 甚至 TB。在計算過程中,GPU 經(jīng)常與內(nèi)存交換大量參數(shù)和中間結(jié)果(激活、梯度)。
傳統(tǒng)系統(tǒng)將內(nèi)存分層到緩存(SRAM)→主內(nèi)存(DRAM)→存儲(SSD/HDD)中,但由于內(nèi)存壁問題和處理器利用率不足,當今的 AI 和 HPC 工作負載暴露了這種層次結(jié)構(gòu)的限制。為了防止強大的 GPU 受到數(shù)據(jù)供應(yīng)的瓶頸(即避免「饑餓」的 GPU),該行業(yè)正在重新劃分內(nèi)存堆棧:
封裝內(nèi) HBM:共同封裝的 3D 堆疊 DRAM 距離 GPU 芯片僅幾英寸。
CXL 池內(nèi)存:跨加速器共享 DDR 池。
基于 NAND 的內(nèi)存:SLC 優(yōu)化存儲和 TLC/QLC,適用于較冷的數(shù)據(jù)層。
高帶寬內(nèi)存(HBM)具有更高的吞吐量,可以同時處理來自各個內(nèi)核的多個內(nèi)存請求。例如,HBM3E 通過結(jié)合高速接口技術(shù),將其數(shù)據(jù)「高速公路」(總線寬度)大幅擴大到 1,024 甚至 2,048 位,從而使每個堆棧的速度達到 1,225 GB/s。
HBM 使用 3D 存儲芯片陣列,垂直堆疊并使用硅通孔(TSV)并聯(lián)連接。(來源: TOP500)
最新一代 HBM3E 使用帶有微凸塊和底部填充的熱壓縮來堆疊 DRAM 芯片,然而,SK 海力士、三星和美光等制造商正在過渡到更先進的封裝技術(shù),例如 HBM4 及更高版本的銅-銅混合鍵合,以增加輸入/輸出、降低功耗、改善散熱、減小電極尺寸等。
視頻隨機存取存儲器(VRAM)的作用
專為 GPU 設(shè)計的高速內(nèi)存稱為 VRAM(視頻隨機存取存儲器)。在當今的高端 AI 和計算中,HBM 是占主導(dǎo)地位的 VRAM 解決方案。
VRAM 是 GPU 的專用內(nèi)存緩沖區(qū),用于存儲關(guān)鍵數(shù)據(jù)以便快速訪問。(來源: Ms.Code)
典型的顯卡(或 AI 加速器)由一個 GPU 芯片與 VRAM 模塊(通常是多個 HBM 堆棧)緊密耦合組成。
以下是 GPU 執(zhí)行計算時的典型數(shù)據(jù)流:
數(shù)據(jù)加載:用于計算的初始數(shù)據(jù)通過 PCIe 等接口從速度較慢、較大的 CPU 系統(tǒng)內(nèi)存(RAM)傳輸?shù)?GPU 的專用高速 VRAM (HBM)。
并行計算:GPU 的眾多計算內(nèi)核從高速 VRAM (HBM)讀取必要的數(shù)據(jù)段并執(zhí)行密集的并行計算(例如,矩陣乘法、卷積)。
結(jié)果暫存:計算的中間或最終結(jié)果快速寫回 VRAM (HBM)進行臨時存儲。
數(shù)據(jù)輸出/保存:處理后的數(shù)據(jù)最終從 VRAM (HBM)傳輸回 CPU 系統(tǒng)內(nèi)存(RAM)進行進一步處理或存儲,或者在某些情況下(如圖形輸出),直接從 VRAM 輸出到顯示接口。
在圖像識別、自然語言處理(NLP)和大型語言模型(LLM)訓練/推理等 AI 任務(wù)中,模型涉及數(shù)十億甚至數(shù)萬億個參數(shù)。計算在很大程度上依賴于 GPU 內(nèi)核和 VRAM 之間持續(xù)、高速的數(shù)據(jù)交換。
因此,VRAM 的性能,尤其是其高速讀寫海量數(shù)據(jù)的能力,直接決定了 GPU 整體計算效率的上限。如果 GPU 核心急需的數(shù)據(jù)(指令、參數(shù)、中間結(jié)果)由于內(nèi)存帶寬不足或高延遲而無法按時交付,則計算單元將卡頓,浪費寶貴的計算能力并妨礙最佳性能(形成「內(nèi)存墻」或內(nèi)存瓶頸)。
這就是為什么 HBM 憑借其出色的高帶寬(滿足數(shù)據(jù)吞吐量需求)和低延遲(減少內(nèi)核等待時間)已成為 NVIDIA H100 和 AMD MI300X 等高性能 AI 專用 GPU 不可替代的內(nèi)存解決方案。
近距離觀察 HBM:3D 結(jié)構(gòu)
HBM 的核心創(chuàng)新在于其獨特的「3D」結(jié)構(gòu)。HBM 不是傳統(tǒng)的平面存儲芯片,而是像摩天大樓一樣垂直堆疊多個標準 DRAM 芯片(稱為 DRAM 芯片)。然后,這些芯片通過密集的硅通孔(TSV)在垂直方向上電氣互連。
每個 DRAM 芯片都使用極薄的粘合劑材料進行粘合,最初通過微凸塊在各層之間互連。
HBM 高性能的關(guān)鍵在于三個相互關(guān)聯(lián)的核心技術(shù)要素:
堆棧:垂直堆疊多層 DRAM 芯片可實現(xiàn)單位面積存儲容量的指數(shù)級增長(例如,8 層堆棧提供的容量是單個芯片的 8 倍),節(jié)省空間并實現(xiàn)更大的容量。
TSV(硅通孔):在堆疊的 DRAM 芯片內(nèi)蝕刻小孔,并填充導(dǎo)電材料以形成垂直通道(直徑僅為 5-10 微米)。這種高密度、短距離的垂直布線直接連接上下層的信號、電源和接地線,實現(xiàn)了傳統(tǒng)平面布線無法實現(xiàn)的極寬總線寬度(超過 1024 位)。
中介層:一種精密的硅或有機襯底,可同時承載 GPU 芯片和 HBM 堆棧。它使用其表面和內(nèi)部高密度布線(走線寬度/間距低至微米級)在極短的距離內(nèi)將 HBM 堆棧的超寬接口與 GPU 芯片的高速 I/O 端口互連。
下圖說明了 GDDR 和 HBM 之間的基本結(jié)構(gòu)差異。
GDDR 和 HBM 的區(qū)別(來源: PC Perspective)
GDDR 的工作原理是什么?
多個獨立的 DRAM 芯片(單個組件)在 BGA 封裝中平面排列,并安裝在 PCB 基板上的 GPU 芯片周圍。
每個 DRAM 組件都需要獨立、相對較長的 PCB 走線才能連接到 GPU。這不僅會占用寶貴的 PCB 面積,增加電路板尺寸和成本,而且長走線會帶來顯著的信號傳輸延遲、信號完整性(SI)挑戰(zhàn)(如反射和串擾)和更高的驅(qū)動功耗。總線寬度受物理可路由通道數(shù)的限制(通常最大為 256 位或 384 位)。
HBM 是如何工作的?
預(yù)先垂直堆疊的 HBM 模塊(包含多個 DRAM 芯片)與 GPU 芯片并排放置在相同的高密度中介層襯底上。
堆疊結(jié)構(gòu)本身大大節(jié)省了平面空間(利用 Z 軸)。因此,靠近 GPU(在同一中介層上)導(dǎo)致極短的互連布線長度(毫米級甚至更短)和其他優(yōu)勢,包括:
超高空間利用率
海量存儲容量
超寬總線寬度(通過 TSV 和轉(zhuǎn)接板實現(xiàn))
超低信號延遲
出色的信號完整性
顯著降低通信功耗
綜上所述,HBM 通過 3D 堆疊 DRAM 封裝并與 GPU 在 2.5D 中介層上緊密集成,完美克服了傳統(tǒng) GDDR 的物理限制,從而在帶寬和革命性的能效方面實現(xiàn)了數(shù)量級的提升。
硅通孔(TSV)技術(shù)在高帶寬存儲器(HBM)中的重要性
在高帶寬存儲器(HBM)的堆疊結(jié)構(gòu)中,硅通孔(TSV)技術(shù)在實現(xiàn) DRAM 芯片之間的垂直互連方面發(fā)揮著至關(guān)重要的作用。
TSV 是蝕刻在硅芯片中的微孔(通常直徑為 5-50 微米),并填充有銅等導(dǎo)電材料,形成垂直電通道。這些互連具有幾個關(guān)鍵優(yōu)勢:
超短互連:TSV 允許信號、電源和接地線直接垂直穿透硅芯片,在相鄰 DRAM 層之間提供盡可能短的電氣連接路徑(約 50-100 微米)。這繞過了傳統(tǒng)上使用的較長的引線鍵合或倒裝芯片互連方法,這些方法需要圍繞芯片邊緣進行布線。
高密度互連:芯片內(nèi)密集封裝了數(shù)千到數(shù)十萬個 TSV,與平面封裝方法相比,HBM 實現(xiàn)了更高的互連密度和并行通道數(shù)。這支持超寬總線寬度,例如 1024 位或 2048 位,這對于高帶寬至關(guān)重要。
高速、低功耗運行:較短的垂直連接路徑可顯著降低信號傳輸延遲,最大限度地減少信號衰減和失真,并降低驅(qū)動互連所需的功率。與具有較長封裝引線或 PCB 走線的傳統(tǒng) DRAM 芯片布置相比,基于 TSV 的垂直互連可提供更快、更高效和低功耗的信號傳輸。
這種先進的垂直互連結(jié)構(gòu)是 HBM 能夠同時提供高存儲密度、超高帶寬和低功耗的基礎(chǔ)。
中介層在高帶寬存儲器(HBM)中的作用
HBM 堆棧和 GPU 芯片不直接焊接到普通 PCB 上。相反,它們被共同集成到稱為中介層的精確中間襯底上。中介層本質(zhì)上是具有超精細布線能力(走線寬度/間距低至 1 微米或更?。┑臒o源硅襯底或高級有機襯底。
中介層在 HBM 系統(tǒng)中起著至關(guān)重要的作用:
Bearing Platform: 它為 GPU 芯片和 HBM 堆棧芯片提供了一個物理安裝平臺。
超高密度互連:其核心價值在于能夠在其表面和內(nèi)部制造大量(數(shù)千到數(shù)萬個)非常窄間距(微米級)的金屬跡線(再分布層- RDL)。這些痕跡就像高架公路或密集的高速道路網(wǎng)絡(luò)。
連接橋:它使用這些超密集走線在非常短的距離(幾毫米到幾十毫米)內(nèi)以低損耗精確連接 HBM 堆棧的超寬接口(球柵陣列,通常包含數(shù)千個觸點)與 GPU 芯片的巨大高速 I/O 端口(微凸塊陣列)。
同樣,HBM 實現(xiàn)超高帶寬的關(guān)鍵不僅僅是提高數(shù)據(jù)傳輸?shù)摹竼瓮ǖ浪俣取梗〞r鐘頻率),而是通過使用 TSV 和中介層共同創(chuàng)建數(shù)量驚人的「并行數(shù)據(jù)通道」(即超寬總線寬度),從而能夠一次傳輸大量數(shù)據(jù)。
HBM 設(shè)計面臨的主要挑戰(zhàn)是什么?
自第一代 HBM 以來,該技術(shù)已經(jīng)發(fā)展了六代,包括 HBM2、HBM2E、HBM3、HBM3E 和計劃中中的 HBM4。隨著 2025 年 HBM3E 量產(chǎn)競爭的白熱化,下一代 HBM4 的競爭已經(jīng)開始。
在這種持續(xù)的技術(shù)升級中,封裝技術(shù)越來越成為競爭的焦點,尤其是在散熱瓶頸變得更加明顯的情況下。如果堆疊芯片的積熱不能得到有效控制,將直接導(dǎo)致性能下降、壽命縮短和功能異常。這使得熱管理以及容量和帶寬成為高級內(nèi)存開發(fā)的三個核心指標之一。
作為 HBM 高速技術(shù)的基石,TSV (Through-Silicon Via)技術(shù)通過在 DRAM 芯片上蝕刻數(shù)千個微孔來構(gòu)建垂直電極通道,就像「HBM 摩天大樓」中連接樓層的「高速電梯」一樣。
然而,隨著 HBM3E 中的堆疊層躍升至 12 層,散熱壓力和翹曲問題帶來了雙重挑戰(zhàn)。為了保持總厚度,DRAM 芯片需要比 8 層 HBM3 薄 40%,而減薄過程引入了與結(jié)構(gòu)變形相關(guān)的新技術(shù)障礙。
要突破堆疊超過 12 層的物理限制,混合鍵合技術(shù)可能成為必然選擇。雖然該解決方案可以實現(xiàn)微米級 3D 互連,但預(yù)計包裝成本會增加 30% 以上。
從 HBM4 到 HBM8 的長期路線圖
未來 HBM 的 I/O 數(shù)量將增加三倍,HBM5、HBM7 和 HBM8 將增加三倍,同時堆棧層、單層容量和引腳速率也將得到改進。此外,鍵合技術(shù)將從目前的微凸塊過渡到銅對銅直接鍵合方法(混合鍵合)。然而,隨著這種代際演變的發(fā)生,HBM 堆棧產(chǎn)生的熱量將逐漸增加,需要增強的熱管理。
HBM 路線圖(來源: KAIST Teralab)
HBM4:集成 LPDDR 控制器
在傳統(tǒng)的 HBM 堆棧中,通常具有定制的 DRAM 芯片。
HBM4(來源:KAIST Teralab)
然而,在 HBM4 中,HBM 基礎(chǔ)芯片有望集成一個 LPDDR 控制器,為 HBM 存儲系統(tǒng)增加一個額外的層,并有效利用傳統(tǒng)配置中未使用的容量和帶寬資源。
HBM5:面向 AI 工作負載的 NMC 簡介
遷移到 HBM5 后,內(nèi)存堆棧預(yù)計將包含 NMC (Near-Memory Computing)模塊。這種集成將降低 HBM 和 AI xPU 之間的帶寬要求,改善計算定位,并提高整體系統(tǒng)性能和能效。
HBM5(來源:KAIST Teralab)
HBM6: 雙塔結(jié)構(gòu)和 NMC 集成
目前,每個 HBM 堆棧都由一個 Base Die 和一個單塔結(jié)構(gòu)的 DRAM 堆棧組成。
然而,對于 HBM6,預(yù)計一個大型 Base Die 將支持兩個 DRAM 堆棧,形成雙塔物理設(shè)計。
HBM6(來源:KAIST Teralab)
此外,NMC 單元將位于堆棧下方。這一代還將看到從當前的硅中介層/Silicon Bridge 連接過渡到硅玻璃復(fù)合中介層,以促進多個 GPU 模塊的集成。
HBM7: 多層存儲系統(tǒng)和嵌入式冷卻
對于 HBM7,預(yù)計有兩大發(fā)展:引入由 HBM 和 HBF(高帶寬閃存)組成的多級存儲系統(tǒng),以及在 DRAM 堆棧中集成多功能橋接,以提高信號質(zhì)量并增加更多功能。
HBM7(來源:KAIST Teralab)
此外,還將引入嵌入式冷卻系統(tǒng),以解決這些系統(tǒng)的高性能功能產(chǎn)生的熱量。
HBM8: 增強型芯片復(fù)合材料和集成冷卻
HBM8 增加了一種復(fù)雜的芯片復(fù)合材料,它不僅利用了 HBM 內(nèi)存封裝的正面,而且還在背面集成了存儲擴展。此外,熱管理將緊密集成到結(jié)構(gòu)中,以應(yīng)對日益增長的熱量挑戰(zhàn)。
HBM8(來源:KAIST Teralab)展望未來:HBM 在 AI 計算中的未來
盡管高帶寬內(nèi)存(HBM)在 AI 計算中發(fā)揮著不可替代的作用,但高成本仍然是廣泛采用的重大障礙。
為了克服這一挑戰(zhàn),該行業(yè)可能會尋求兩條可能的途徑:
「HBM-Lite」的開發(fā): 此版本旨在通過簡化當前的 HBM 架構(gòu)來優(yōu)化成本,而不會為要求較低的應(yīng)用犧牲關(guān)鍵性能。
混合存儲架構(gòu):一種分層方法,在系統(tǒng)級別將 HBM 與傳統(tǒng)內(nèi)存類型(如 DDR5 和 GDDR7)相結(jié)合。在這種設(shè)置中,HBM 將管理「熱數(shù)據(jù)」——需要快速處理的高優(yōu)先級信息——而 DDR5/GDDR7 將處理「冷數(shù)據(jù)」,即不常訪問的信息。這種混合策略可以提供靈活的解決方案,從而有效滿足特定需求。對于高端 AI 訓練,完整的 HBM 架構(gòu)將確保所需的吞吐量。對于邊緣推理,混合解決方案將優(yōu)化總擁有成本(TCO),平衡性能與經(jīng)濟性。
KAIST 的長期路線圖強調(diào)了 HBM 令人興奮的未來,在內(nèi)存架構(gòu)、AI 工作負載和散熱解決方案方面不斷進步。隨著這些創(chuàng)新的展開,HBM 將不斷發(fā)展以滿足高帶寬、低延遲應(yīng)用不斷增長的需求,確保其在下一代計算的前沿地位。
評論