新聞中心

EEPW首頁 > 智能計(jì)算 > 市場分析 > AMD新專利,解決多芯粒GPU延遲

AMD新專利,解決多芯粒GPU延遲

作者: 時間:2025-07-15 來源:半導(dǎo)體產(chǎn)業(yè)縱橫 收藏

據(jù)報(bào)道,基于最新獲批的專利, 公司已探索「智能交換器」優(yōu)化數(shù)據(jù)處理,從而解決多芯粒 的延遲問題。有消息稱在消費(fèi)級 領(lǐng)域, 預(yù)計(jì)將采用多芯粒模塊設(shè)計(jì)。

多芯粒模塊設(shè)計(jì),即將多個芯片集成到一個封裝中,之前已在高性能計(jì)算領(lǐng)域得到應(yīng)用,而 計(jì)劃將其擴(kuò)展到游戲 ,以應(yīng)對單芯片設(shè)計(jì)在制造和性能上的瓶頸。

此前,AMD 在這方面積累了豐富的經(jīng)驗(yàn),例如其 Instinct 系列加速器已采用多芯片設(shè)計(jì)。Instinct MI200 使用多個圖形計(jì)算芯片與高帶寬內(nèi)存堆疊,實(shí)現(xiàn)了高效的數(shù)據(jù)傳輸。后續(xù)的 Instinct MI350 系列進(jìn)一步優(yōu)化了這一結(jié)構(gòu),搭載 288GB HBM3E 內(nèi)存,內(nèi)存帶寬達(dá) 8TB/s,基于 3nm 工藝節(jié)點(diǎn),總晶體管數(shù)達(dá) 1850 億。該系列通過 10 個芯片模塊的 2D 混合鍵合,提升了 AI 任務(wù)的處理能力,為消費(fèi)級產(chǎn)品提供了技術(shù)基礎(chǔ)。

具體到游戲領(lǐng)域,GPU 若要采用多芯粒模塊設(shè)計(jì),那么最大的問題就是延遲較高,因?yàn)閹秩緦﹂L距離數(shù)據(jù)傳輸?shù)难舆t非常敏感。若要解決這一問題,AMD 就必須想出一種能盡可能縮小數(shù)據(jù)與計(jì)算之間差距的方案。

根據(jù)披露的一項(xiàng)新專利申請,AMD 或許已經(jīng)破解了多芯粒模塊設(shè)計(jì)游戲 GPU 的設(shè)計(jì)之道。不過,該專利視頻中披露的是 CPU 相關(guān)細(xì)節(jié),而非 GPU,但文本內(nèi)容和機(jī)制表明其目標(biāo)是圖形應(yīng)用場景。

那么,AMD 究竟將如何在 GPU 中運(yùn)用多芯粒模塊設(shè)計(jì)呢?據(jù)悉,該專利的核心是一種「帶有智能交換機(jī)的數(shù)據(jù)架構(gòu)電路」,它能連接計(jì)算小芯片與內(nèi)存控制器之間的通信。這本質(zhì)上是 AMD 

那么,AMD 究竟將如何在 GPU 中運(yùn)用多芯粒模塊設(shè)計(jì)呢?據(jù)悉,該專利的核心是一種「帶有智能交換機(jī)的數(shù)據(jù)架構(gòu)電路」,它能連接計(jì)算小芯片與內(nèi)存控制器之間的通信。這本質(zhì)上是 AMD Infinity Fabric,但為消費(fèi)級 GPU 進(jìn)行了縮減,因?yàn)?AMD 無法采用 HBM 內(nèi)存芯片。該交換機(jī)旨在優(yōu)化內(nèi)存訪問,其工作原理是先判斷圖形任務(wù)請求是否需要任務(wù)遷移或數(shù)據(jù)復(fù)制,決策延遲達(dá)到納秒級。

解決了數(shù)據(jù)訪問問題后,該專利還指出要讓圖形計(jì)算核心(GCD)配備 L1 和 L2 緩存,這與 AI 加速器的設(shè)計(jì)類似。不過,通過交換機(jī)還能訪問額外的共享 L3 緩存(或堆疊式 SRAM),該緩存將連接所有 GCD。這不僅減少了對全局內(nèi)存的訪問依賴,同時能夠充當(dāng)小芯片之間的共享過渡區(qū),類似于 AMD 3D V-Cache 技術(shù),只不過 3D V-Cache 主要用于處理器。此外,該專利還涉及堆疊式 DRAM,這本質(zhì)上是多芯粒模塊設(shè)計(jì)的基礎(chǔ)。

這一專利的出現(xiàn)表明,AMD 已為多芯片 GPU 生態(tài)做好準(zhǔn)備。AMD 可以使用臺積電的 InFO-RDL 橋接技術(shù),以及在小芯片之間使用特定版本的 Infinity Fabric 進(jìn)行封裝。更具吸引力的是,這種實(shí)現(xiàn)方式是 AI 加速器的縮減版本。此前,AMD 計(jì)劃將其游戲和 AI 架構(gòu)合并為一個統(tǒng)一架構(gòu),即 UDNA 架構(gòu)。AMD 還整合了軟件生態(tài)系統(tǒng),這樣可以攤薄驅(qū)動程序和編譯器的開發(fā)工作。

由于單芯片設(shè)計(jì)存在局限性,這或許是 AMD 超越競爭對手的絕佳機(jī)會。然而,芯粒設(shè)計(jì)也存在復(fù)雜性,AMD 此前在 RDNA 3 上就曾遇到過小芯片互連帶來的延遲。AMD RDNA 3 架構(gòu) Navi 31 GPU 已部分采用多芯片設(shè)計(jì),配備六個內(nèi)存控制器芯片,總 Infinity Cache 達(dá) 96MB,內(nèi)存總線寬 384 位,支持高達(dá) 24GB GDDR6 內(nèi)存。通過 Infinity Fabric 互聯(lián),峰值帶寬達(dá) 5.2TB/s。該設(shè)計(jì)在 RX 7900 系列中實(shí)現(xiàn),每瓦性能較前代提升 50%,但也暴露了芯片間延遲的缺陷。

然而憑借創(chuàng)新的交換機(jī)方案,再加上額外的共享 L3 緩存,AMD 有望解決延遲問題。不過,具體效果如何,可能要到 UDNA 5 才能見分曉。


關(guān)鍵詞: AMD GPU

評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉