AMD新專利，解決多芯粒GPU延遲

作者：時間：2025-07-15 來源：半導(dǎo)體產(chǎn)業(yè)縱橫

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

據(jù)報(bào)道，基于最新獲批的專利，AMD 公司已探索「智能交換器」優(yōu)化數(shù)據(jù)處理，從而解決多芯粒 GPU 的延遲問題。有消息稱在消費(fèi)級 GPU 領(lǐng)域，AMD 預(yù)計(jì)將采用多芯粒模塊設(shè)計(jì)。

多芯粒模塊設(shè)計(jì)，即將多個芯片集成到一個封裝中，之前已在高性能計(jì)算領(lǐng)域得到應(yīng)用，而 AMD 計(jì)劃將其擴(kuò)展到游戲 GPU，以應(yīng)對單芯片設(shè)計(jì)在制造和性能上的瓶頸。

此前，AMD 在這方面積累了豐富的經(jīng)驗(yàn)，例如其 Instinct 系列加速器已采用多芯片設(shè)計(jì)。Instinct MI200 使用多個圖形計(jì)算芯片與高帶寬內(nèi)存堆疊，實(shí)現(xiàn)了高效的數(shù)據(jù)傳輸。后續(xù)的 Instinct MI350 系列進(jìn)一步優(yōu)化了這一結(jié)構(gòu)，搭載 288GB HBM3E 內(nèi)存，內(nèi)存帶寬達(dá) 8TB/s，基于 3nm 工藝節(jié)點(diǎn)，總晶體管數(shù)達(dá) 1850 億。該系列通過 10 個芯片模塊的 2D 混合鍵合，提升了 AI 任務(wù)的處理能力，為消費(fèi)級產(chǎn)品提供了技術(shù)基礎(chǔ)。

具體到游戲領(lǐng)域，GPU 若要采用多芯粒模塊設(shè)計(jì)，那么最大的問題就是延遲較高，因?yàn)閹秩緦﹂L距離數(shù)據(jù)傳輸?shù)难舆t非常敏感。若要解決這一問題，AMD 就必須想出一種能盡可能縮小數(shù)據(jù)與計(jì)算之間差距的方案。

根據(jù)披露的一項(xiàng)新專利申請，AMD 或許已經(jīng)破解了多芯粒模塊設(shè)計(jì)游戲 GPU 的設(shè)計(jì)之道。不過，該專利視頻中披露的是 CPU 相關(guān)細(xì)節(jié)，而非 GPU，但文本內(nèi)容和機(jī)制表明其目標(biāo)是圖形應(yīng)用場景。

那么，AMD 究竟將如何在 GPU 中運(yùn)用多芯粒模塊設(shè)計(jì)呢？據(jù)悉，該專利的核心是一種「帶有智能交換機(jī)的數(shù)據(jù)架構(gòu)電路」，它能連接計(jì)算小芯片與內(nèi)存控制器之間的通信。這本質(zhì)上是 AMD

那么，AMD 究竟將如何在 GPU 中運(yùn)用多芯粒模塊設(shè)計(jì)呢？據(jù)悉，該專利的核心是一種「帶有智能交換機(jī)的數(shù)據(jù)架構(gòu)電路」，它能連接計(jì)算小芯片與內(nèi)存控制器之間的通信。這本質(zhì)上是 AMD Infinity Fabric，但為消費(fèi)級 GPU 進(jìn)行了縮減，因?yàn)?AMD 無法采用 HBM 內(nèi)存芯片。該交換機(jī)旨在優(yōu)化內(nèi)存訪問，其工作原理是先判斷圖形任務(wù)請求是否需要任務(wù)遷移或數(shù)據(jù)復(fù)制，決策延遲達(dá)到納秒級。

解決了數(shù)據(jù)訪問問題后，該專利還指出要讓圖形計(jì)算核心（GCD）配備 L1 和 L2 緩存，這與 AI 加速器的設(shè)計(jì)類似。不過，通過交換機(jī)還能訪問額外的共享 L3 緩存（或堆疊式 SRAM），該緩存將連接所有 GCD。這不僅減少了對全局內(nèi)存的訪問依賴，同時能夠充當(dāng)小芯片之間的共享過渡區(qū)，類似于 AMD 3D V-Cache 技術(shù)，只不過 3D V-Cache 主要用于處理器。此外，該專利還涉及堆疊式 DRAM，這本質(zhì)上是多芯粒模塊設(shè)計(jì)的基礎(chǔ)。

這一專利的出現(xiàn)表明，AMD 已為多芯片 GPU 生態(tài)做好準(zhǔn)備。AMD 可以使用臺積電的 InFO-RDL 橋接技術(shù)，以及在小芯片之間使用特定版本的 Infinity Fabric 進(jìn)行封裝。更具吸引力的是，這種實(shí)現(xiàn)方式是 AI 加速器的縮減版本。此前，AMD 計(jì)劃將其游戲和 AI 架構(gòu)合并為一個統(tǒng)一架構(gòu)，即 UDNA 架構(gòu)。AMD 還整合了軟件生態(tài)系統(tǒng)，這樣可以攤薄驅(qū)動程序和編譯器的開發(fā)工作。

由于單芯片設(shè)計(jì)存在局限性，這或許是 AMD 超越競爭對手的絕佳機(jī)會。然而，芯粒設(shè)計(jì)也存在復(fù)雜性，AMD 此前在 RDNA 3 上就曾遇到過小芯片互連帶來的延遲。AMD RDNA 3 架構(gòu) Navi 31 GPU 已部分采用多芯片設(shè)計(jì)，配備六個內(nèi)存控制器芯片，總 Infinity Cache 達(dá) 96MB，內(nèi)存總線寬 384 位，支持高達(dá) 24GB GDDR6 內(nèi)存。通過 Infinity Fabric 互聯(lián)，峰值帶寬達(dá) 5.2TB/s。該設(shè)計(jì)在 RX 7900 系列中實(shí)現(xiàn)，每瓦性能較前代提升 50%，但也暴露了芯片間延遲的缺陷。

然而憑借創(chuàng)新的交換機(jī)方案，再加上額外的共享 L3 緩存，AMD 有望解決延遲問題。不過，具體效果如何，可能要到 UDNA 5 才能見分曉。

新聞中心

AMD新專利，解決多芯粒GPU延遲

評論

相關(guān)推薦

技術(shù)專區(qū)