股價(jià)大漲!1530億晶體管,AMD發(fā)布史上最大、最強(qiáng)芯片!多項(xiàng)指標(biāo)數(shù)倍于H100,打響挑戰(zhàn)英偉達(dá)第一槍!
AMD 利用有史以來(lái)最先進(jìn)的量產(chǎn)技術(shù)打造了 MI300 系列產(chǎn)品,采用 "3.5D "封裝等新技術(shù)生產(chǎn)出兩款多芯片巨型處理器,并稱可在各種 AI 工作負(fù)載中提供與 Nvidia 不相上下的性能。其中有多項(xiàng)性能指標(biāo)評(píng)測(cè)數(shù)倍于競(jìng)爭(zhēng)對(duì)手英偉達(dá)的H100。AMD 沒(méi)有透露其新的奇特芯片的價(jià)格,但這些產(chǎn)品現(xiàn)已向眾多 OEM 合作伙伴發(fā)貨。
Instinct MI300 是一種改變游戲規(guī)則的設(shè)計(jì) - 數(shù)據(jù)中心 APU 混合了總共 13 個(gè)小芯片,其中許多是 3D 堆疊的,以創(chuàng)建一個(gè)具有 24 個(gè) Zen 4 CPU 內(nèi)核并融合了 CDNA 3 圖形引擎和 8 個(gè)堆棧的芯片HBM3??傮w而言,該芯片擁有 1530 億個(gè)晶體管,是 AMD 迄今為止制造的最大芯片。AMD 聲稱該芯片在某些工作負(fù)載中的性能比 Nvidia H100 GPU 高出 4 倍,并宣稱其每瓦性能是其兩倍。
AMD 表示,其 Instinct MI300X GPU 在人工智能推理工作負(fù)載中的性能比 Nidia H100 高出 1.6 倍,并在訓(xùn)練工作中提供類似的性能,從而為業(yè)界提供了急需的 Nvidia GPU 的高性能替代品。此外,這些加速器的 HBM3 內(nèi)存容量是 Nvidia GPU的兩倍以上(每個(gè) 192 GB 令人難以置信),使其 MI300X 平臺(tái)能夠支持每個(gè)系統(tǒng)兩倍以上的 LLM 數(shù)量,并運(yùn)行比 Nvidia H100 HGX 更大的模型。
AMD Instinct MI300XMI300X代表了 AMD 基于小芯片的設(shè)計(jì)方法的頂峰,將八個(gè) 12Hi 堆棧的 HBM3 內(nèi)存與八個(gè) 3D 堆棧的 5nm CDNA 3 GPU 小芯片(稱為 XCD)融合在四個(gè)底層 6nm I/O 芯片上,這些芯片使用 AMD 現(xiàn)已成熟的技術(shù)進(jìn)行連接混合鍵合技術(shù)。






MI300X 加速器設(shè)計(jì)用于在 AMD 的生成式 AI 平臺(tái)中以 8 個(gè)為一組工作,GPU 之間通過(guò) Infinity Fabric 互聯(lián)實(shí)現(xiàn) 896 GB/s 的吞吐量。該系統(tǒng)擁有 1.5TB 的 HBM3 內(nèi)存,性能高達(dá) 10.4 Petaflops(BF16/FP16)。該系統(tǒng)基于開放計(jì)算項(xiàng)目(OCP)通用底板(UBB)設(shè)計(jì)標(biāo)準(zhǔn)構(gòu)建,從而簡(jiǎn)化了采用過(guò)程,特別是對(duì)于超大規(guī)模用戶而言。
與 Nvidia 的 H100 HGX 平臺(tái)(BF16/FP16)相比,AMD 的 MI300X 平臺(tái)內(nèi)存容量增加了 2.4 倍,計(jì)算能力提高了 1.3 倍,同時(shí)還保持了相當(dāng)?shù)碾p向和單節(jié)點(diǎn)環(huán)帶寬。AMD 為 MI300X 平臺(tái)配備了 400GbE 網(wǎng)絡(luò),并支持多種網(wǎng)卡,而 Nvidia 則傾向于使用其收購(gòu) Mellanox 后生產(chǎn)的自有網(wǎng)絡(luò)產(chǎn)品。





AMD 的 MI300X 平臺(tái)在 300 億參數(shù) MPT 訓(xùn)練工作負(fù)載中提供的性能與 H100 HGX 系統(tǒng)大致相同,但需要注意的是,此測(cè)試并不是加速器的一對(duì)一比較。相反,該測(cè)試讓八個(gè)加速器組相互競(jìng)爭(zhēng),因此平臺(tái)級(jí)功能更像是一個(gè)限制因素。無(wú)論哪種情況,這種性能都會(huì)很快引起受到 Nvidia GPU短缺困擾的行業(yè)的興趣。
在平臺(tái)功能方面,AMD 還宣稱,MI300X 平臺(tái)的內(nèi)存容量?jī)?yōu)勢(shì)允許托管的 300 億參數(shù)訓(xùn)練模型和 700 億數(shù)推理模型數(shù)量是 H100 系統(tǒng)的兩倍。此外,MI300X 平臺(tái)還可支持多達(dá) 70B 的訓(xùn)練模型和 2900 億參數(shù)的推理模型,兩者都是 H100 HGX 所支持模型的兩倍。當(dāng)然,Nvidia 即將推出的 H200 GPU在內(nèi)存容量和帶寬方面將更具競(jìng)爭(zhēng)力,而計(jì)算性能將與現(xiàn)有的 H100 保持相似。Nvidia 要到明年才會(huì)開始發(fā)貨 H200,因此與 MI300X 的競(jìng)爭(zhēng)仍然存在。AMD Instinct MI300AAMD Instinct MI300A 是全球首款數(shù)據(jù)中心 APU,這意味著它將 CPU 和 GPU 結(jié)合在同一個(gè)封裝中。它將直接與Nvidia 的 Grace Hopper Superchips競(jìng)爭(zhēng),后者的 CPU 和 GPU 位于單獨(dú)的芯片封裝中,可以協(xié)同工作。MI300A 已經(jīng)在El Capitan 超級(jí)計(jì)算機(jī)中取得了顯著的勝利,AMD 已經(jīng)將該芯片運(yùn)送給其合作伙伴。






MI300A 的默認(rèn) TDP 為 350W,但可配置為最高 760W。AMD 根據(jù)使用情況在芯片的 CPU 和 GPU 部分之間動(dòng)態(tài)分配功率,從而優(yōu)化性能和效率。AMD 盡可能巧妙地重復(fù)利用:MI300A 插入 AMD 的標(biāo)準(zhǔn) LGA6096 插槽,就像 EPYC Genoa 處理器一樣,但該插槽的 SH5 版本與使用 SP5 的 AMD EPYC 處理器在電氣上不兼容。內(nèi)存空間在 CPU 和 GPU 之間共享,從而消除了數(shù)據(jù)傳輸。該技術(shù)通過(guò)消除單元之間的數(shù)據(jù)傳輸來(lái)提高性能和能源效率,同時(shí)還減少編碼負(fù)擔(dān)。與 MI300X 一樣,該芯片具有中央 256MB Infinity Cache,有助于確保流經(jīng)芯片的數(shù)據(jù)的帶寬和延遲。AMD 聲稱 FP64 Matrix/DGEMM 和 FP64/FP32 Vector TFLOPS 比 H100 高出 1.8 倍。該公司還聲稱 TF32、FP16、BF16、FP8 和 INT8 與 H100 相同。







5nm XCD GPU 芯片標(biāo)志著 AMD GPU 設(shè)計(jì)的全面小芯片化。與 MI200 中使用的小芯片表現(xiàn)為兩個(gè)獨(dú)立的設(shè)備不同,MI300 小芯片則是表現(xiàn)為一個(gè)單片 GPU。每個(gè) XCD 有 40 個(gè)物理 CDNA3 計(jì)算單元,但只有 38 個(gè)被激活(這有助于解決良率問(wèn)題)。每個(gè) 38-CU 小芯片都有 4MB 共享 L2 (16x 256KB)。XCD 和 IOD 具有硬件輔助機(jī)制,可將作業(yè)分解為更小的部分、分派它們并保持它們同步,從而減少主機(jī)系統(tǒng)開銷。這些單元還具有硬件輔助的緩存一致性。上圖中的最后一張PPT展示了 CDNA 3 計(jì)算單元的增強(qiáng)功能和性能。








該公司在這種現(xiàn)已成熟的混合鍵合技術(shù)方面積累的長(zhǎng)期經(jīng)驗(yàn)使其有信心在 MI300 處理器中繼續(xù)采用該技術(shù)。與由 3D V-Cache和標(biāo)準(zhǔn)型號(hào)組成的 AMD 消費(fèi)類 PC 芯片系列相比,MI300 處理器代表該公司首次在整個(gè)產(chǎn)品堆棧中完全依賴該技術(shù)。 總體而言,SoC 連接可在各種 3D 堆疊單元中提供高達(dá) 17 TB/s 的垂直帶寬。SoIC 尺寸為 13x29mm。 專輯最后一張PPT中的剖面圖展示了 3.5D 封裝方法的復(fù)雜性和美妙之處。。它說(shuō)明了如何從底部使用有機(jī)基板、上方具有金屬布線和 TSV 的 CoWos 無(wú)源硅中介層,以及采用混合鍵合(9 微米間距)的 3D 堆疊 IOD 和 XCD 來(lái)構(gòu)建封裝。將有機(jī)基板與硅中介層(底部)配合的巨大銅凸塊突出了 3D 堆疊部分的頂部和底部芯片(靠近頂部)之間幾乎不可見(jiàn)的混合鍵合連接是多么小和密集。芯片)。混合鍵合技術(shù)需要減薄芯片以暴露 TSV,以便它們可以配對(duì)。因此,AMD 必須在封裝頂部采用硅墊片以保持結(jié)構(gòu)完整性,就像其他配備 3D V-Cache 的處理器一樣。





來(lái)源:EETOP
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。