AI芯片研究現(xiàn)狀及體系結(jié)構(gòu)
為了應(yīng)對(duì)不同場(chǎng)景的智能計(jì)算任務(wù),AI芯片誕生了不同的分支,包括適用于各種大規(guī)模網(wǎng)絡(luò)訓(xùn)練的大算力、高功耗通用AI芯片和適用于特定應(yīng)用、在邊緣設(shè)備(如機(jī)器人)上進(jìn)行智能計(jì)算的專用AI芯片?;谌斯ぶ悄艿母兄?、定位與導(dǎo)航技術(shù)與眾多機(jī)器人應(yīng)用相關(guān),這些技術(shù)通常具有高算力需求。因此,專用AI芯片對(duì)機(jī)器人的智能化應(yīng)用具有重要意義,學(xué)術(shù)界和工業(yè)界一直致力于高性能AI芯片架構(gòu)的設(shè)計(jì)。
隨著網(wǎng)絡(luò)模型的不斷增大,研究人員發(fā)現(xiàn)單純依賴高性能硬件架構(gòu)的設(shè)計(jì)已然無法滿足最先進(jìn)網(wǎng)絡(luò)在專用AI芯片上的高效部署,而新興的軟硬件結(jié)合加速技術(shù)為問題的解決帶來了突破口,并得到廣泛重視和大量研究。
當(dāng)前存在的人工智能芯片可被劃分為通用芯片、專用芯片和可重構(gòu)芯片三大類。
通用芯片主要包括中央處理器(CPU)和圖形處理器(GPU)。這兩種芯片基于馮·諾依曼體系結(jié)構(gòu),以控制流作為驅(qū)動(dòng),具有很強(qiáng)的靈活性與通用性。
早在20世紀(jì)60年代,計(jì)算機(jī)工業(yè)就開始廣泛使用CPU這一術(shù)語。隨著技術(shù)的進(jìn)步和數(shù)十年的發(fā)展,CPU的設(shè)計(jì)技術(shù)和計(jì)算性能不斷提升,但CPU的基本原理保持不變。CPU的架構(gòu)如圖所示,其中算術(shù)邏輯單元(ALU)模塊用于執(zhí)行邏輯運(yùn)算,而指令集訓(xùn)(IR)、指令程序計(jì)數(shù)器(PC)等模塊則確保指令能夠有序執(zhí)行。
為了提高CPU的計(jì)算性能,像英特爾和AMD等全球頂級(jí)CPU制造商致力于多核設(shè)計(jì)、超頻等方面的技術(shù)突破。然而,隨著深度學(xué)習(xí)等計(jì)算密集型任務(wù)的興起,CPU面臨著嚴(yán)重的算力依賴性挑戰(zhàn)。特別是在散熱和功耗的限制下,無法無限制地提高CPU的工作頻率以滿足計(jì)算需求,這就導(dǎo)致了在CPU平臺(tái)上部署神經(jīng)網(wǎng)絡(luò)時(shí)遇到了不可逾越的鴻溝。
神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和推理過程對(duì)大量的計(jì)算資源和高效的數(shù)據(jù)處理能力有著極高的要求,而現(xiàn)代CPU在這些方面的表現(xiàn)往往無法完全滿足。
GPU的出現(xiàn)不僅彌補(bǔ)了CPU算力不足的缺陷,而且極大地推動(dòng)了人工智能技術(shù)的發(fā)展。與CPU不同,GPU在單位面積上集成了更多數(shù)量的處理單元。如英偉達(dá)在2024年推出的GeForce RTX 4090顯卡擁有16384個(gè)CUDA核心,而同時(shí)期最先進(jìn)的英特爾Core i9處理器最高僅有24個(gè)核心。因此,相比CPU,GPU在應(yīng)對(duì)大規(guī)模并行運(yùn)算時(shí)更具優(yōu)勢(shì),能夠?qū)崿F(xiàn)1到2個(gè)數(shù)量級(jí)的性能提升。
同時(shí),GPU巨頭英偉達(dá)不斷改進(jìn)硬件架構(gòu)和編程模型,工業(yè)界和學(xué)術(shù)界越來越多地將GPU應(yīng)用到神經(jīng)網(wǎng)絡(luò)的訓(xùn)練與推斷。2012年的ImageNet挑戰(zhàn)賽上僅有4支參賽隊(duì)伍使用GPU;而到了2014年,幾乎所有隊(duì)伍都使用了GPU。到如今,隨著網(wǎng)絡(luò)深度不斷加大,尤其大模型的出現(xiàn)導(dǎo)致參數(shù)量突破千億,因此對(duì)GPU的依賴更加嚴(yán)重。
然而,CPU和GPU這種基于馮·諾依曼體系結(jié)構(gòu)的通用芯片在智能計(jì)算應(yīng)用中遇到以下問題:
① 任務(wù)的執(zhí)行涉及大量“取指”“譯碼”“寄存器訪問”和“數(shù)據(jù)回寫”等輔助性操作,限制了處理器性能,降低了能效;
② 存儲(chǔ)與運(yùn)算分離的計(jì)算架構(gòu)無法高效適配智能計(jì)算這種訪存量巨大的任務(wù),頻繁的數(shù)據(jù)交換導(dǎo)致大量功耗浪費(fèi)和嚴(yán)重的網(wǎng)絡(luò)處理延遲;
③ 馮·諾依曼架構(gòu)的計(jì)算單元位寬固定,無法支持多精度協(xié)同運(yùn)算。
鑒于GPU和CPU的上述缺陷,低功耗、高性能的專用芯片應(yīng)運(yùn)而生,并逐漸在網(wǎng)絡(luò)加速中嶄露頭角。
在2016年和2017年,F(xiàn)acebook、微軟、亞馬遜AWS、阿里云等發(fā)布了基于可重構(gòu)芯片的云計(jì)算服務(wù)。2017年以來,專用芯片成為學(xué)術(shù)界和工業(yè)界的研發(fā)熱點(diǎn) —— 如谷歌在服務(wù)器中使用的TPU(Tensor Processing Unit)就是一項(xiàng)被大規(guī)模部署、證明有效的GPU替代方案。
所謂專用智能芯片,主要是指基于ASIC和FPGA方法設(shè)計(jì)的定制處理器。ASIC這類面向計(jì)算任務(wù)進(jìn)行有針對(duì)性設(shè)計(jì)的芯片能夠?qū)崿F(xiàn)以毫瓦級(jí)的功耗取得高達(dá)100~1000GOP/W的算力,因而適配于智能計(jì)算。隨著近些年來人工智能算法的爆炸式發(fā)展和相關(guān)技術(shù)的逐漸成熟,專用智能芯片的優(yōu)勢(shì)逐漸凸顯,因而有大量國內(nèi)外公司參與到此類芯片的研發(fā),研發(fā)情況如圖所示。
雖然ASIC芯片在功耗、可靠性和集成度上頗具優(yōu)勢(shì),且在有高性能、低功耗需求的邊緣計(jì)算場(chǎng)景下尤其凸顯。然而,ASIC芯片本身也存在著固有的缺陷,比如電路設(shè)計(jì)需要定制、開發(fā)周期長、功能難以擴(kuò)展、無法根據(jù)神經(jīng)網(wǎng)絡(luò)架構(gòu)的不同來更改計(jì)算架構(gòu)等。
FPGA是對(duì)GPU與ASIC的折中選擇,其發(fā)展歷程如圖所示。FPGA的原理是在芯片內(nèi)部署大量基本的門電路與存儲(chǔ)器,通過更改FPGA的配置文件來定義這些門電路與存儲(chǔ)器之間的連接?;诳芍貥?gòu)芯片的智能加速汲取了通用芯片與專用芯片的優(yōu)勢(shì),在擁有定制化電路高性能優(yōu)勢(shì)的同時(shí),又具備相當(dāng)?shù)耐ㄓ眯浴?/p>
FPGA摒棄了傳統(tǒng)馮·諾依曼架構(gòu)命令執(zhí)行流程中需要有指令存儲(chǔ)器、譯碼器、各種指令的運(yùn)算器及分支跳轉(zhuǎn)處理邏輯參與的問題,極大地降低了計(jì)算任務(wù)執(zhí)行功耗,能耗比得到大幅提升。另一方面,F(xiàn)PGA的靈活性使其克服了ASIC無法實(shí)現(xiàn)電路級(jí)可重構(gòu)定制化的問題,為算法的功能實(shí)現(xiàn)和優(yōu)化留出了更大的空間。而且,F(xiàn)PGA的一次性成本遠(yuǎn)低于ASIC。由于上述優(yōu)勢(shì),F(xiàn)PGA在眾多領(lǐng)域逐漸出現(xiàn)替代ASIC與GPU的趨勢(shì)。
值得注意的是,數(shù)據(jù)流占據(jù)高性能機(jī)器人專用AI芯片設(shè)計(jì)的半壁江山,一個(gè)高效的數(shù)據(jù)流能夠提高數(shù)據(jù)復(fù)用率,降低功耗代價(jià)高昂的片上、片外內(nèi)存訪問頻率是設(shè)計(jì)機(jī)器人專用AI芯片必不可少的一環(huán)。
評(píng)論