SemiDynamics詳細(xì)介紹了一體化 RISC-V NPU
西班牙的 SemiDynamics 開(kāi)發(fā)了一種完全可編程的神經(jīng)處理單元 (NPU) IP,它結(jié)合了 CPU、向量和張量處理,可為大型語(yǔ)言模型和 AI 推薦系統(tǒng)提供高達(dá) 256 TOPS 的吞吐量。
本文引用地址:http://www.2s4d.com/article/202505/470145.htmCervell NPU 基于 RISC-V 開(kāi)放指令集架構(gòu),可從 8 個(gè)內(nèi)核擴(kuò)展到 64 個(gè)內(nèi)核。這使設(shè)計(jì)人員能夠根據(jù)應(yīng)用的要求調(diào)整性能,從緊湊型邊緣部署中 1GHz 的 8 TOPS INT8 到數(shù)據(jù)中心芯片中高端 AI 推理中的 256 TOPS INT4。
這是繼 12 月推出的一體化架構(gòu)之后發(fā)布的,本白皮書(shū)中對(duì)此進(jìn)行了詳細(xì)介紹。
“Cervell 專(zhuān)為 AI 計(jì)算的新時(shí)代而設(shè)計(jì),在這個(gè)時(shí)代,現(xiàn)成的解決方案是不夠的。作為 NPU,它提供從邊緣推理到大型語(yǔ)言模型的所有功能所需的可擴(kuò)展性能。但真正讓它與眾不同的是它的構(gòu)建方式:完全可編程,由于開(kāi)放式 RISC-V ISA 沒(méi)有鎖定,并且可以深度定制到指令級(jí)別。結(jié)合我們的 Gazillion Misses 內(nèi)存子系統(tǒng),Cervell 消除了傳統(tǒng)的數(shù)據(jù)瓶頸,并為芯片設(shè)計(jì)人員提供了強(qiáng)大的基礎(chǔ),以構(gòu)建差異化的高性能 AI 解決方案,“Semidynamics 首席執(zhí)行官 Roger Espasa 說(shuō)。
Cervell NPU 專(zhuān)為加速矩陣密集型作而設(shè)計(jì),可實(shí)現(xiàn)更高的吞吐量、更低的功耗和實(shí)時(shí)響應(yīng)。通過(guò)將 NPU 功能與標(biāo)準(zhǔn) CPU 和矢量處理集成到統(tǒng)一架構(gòu)中,設(shè)計(jì)人員可以消除延遲并最大限度地提高各種 AI 任務(wù)(從推薦系統(tǒng)到深度學(xué)習(xí)管道)的性能。
Cervell 內(nèi)核與 Gazillion Misses 內(nèi)存管理子系統(tǒng)緊密集成。這支持多達(dá) 128 個(gè)同步內(nèi)存請(qǐng)求,消除了超過(guò) 60 字節(jié)/周期的持續(xù)數(shù)據(jù)流的延遲停頓。此外,還可以大規(guī)模并行訪問(wèn)片外內(nèi)存,這對(duì)于大型模型推理和稀疏數(shù)據(jù)處理至關(guān)重要。
這可以保持完整的管道飽和,即使在推薦系統(tǒng)和深度學(xué)習(xí)等帶寬密集型應(yīng)用程序中也是如此。
該內(nèi)核是完全可定制的,能夠添加標(biāo)量或矢量指令,配置暫存器存儲(chǔ)器和自定義 I/O FIFO,并定義存儲(chǔ)器接口和同步方案,以提供面向未來(lái)的差異化 AI 硬件。
這種 RTL 級(jí)別的深度定制,包括插入客戶定義的指令,使公司能夠?qū)⑽ㄒ坏?IP 直接集成到解決方案中,保護(hù)其 ASIC 投資免受模仿,并確保設(shè)計(jì)針對(duì)功耗、性能和面積進(jìn)行全面優(yōu)化。開(kāi)發(fā)模型包括早期 FPGA drop 和并行驗(yàn)證,以減少開(kāi)發(fā)時(shí)間和風(fēng)險(xiǎn)。
Configuration | INT8 @ 1GHz | INT4 @ 1GHz | INT8 @ 2GHz | INT4 @ 2GHz |
C8 | 8 TOPS | 16 TOPS | 16 TOPS | 32 TOPS |
C16 | 16 TOPS | 32 TOPS | 32 TOPS | 64 TOPS |
C32 | 32 TOPS | 64 TOPS | 64 TOPS | 128 TOPS |
C64 | 64 TOPS | 128 TOPS | 128 TOPS | 256 TOPS |
評(píng)論