知合計算黃怡皓:基于RISC-V架構(gòu)的大模型技術(shù)創(chuàng)新與應(yīng)用
7月18日,第五屆RISC-V中國峰會在上海進(jìn)入分論壇環(huán)節(jié)。作為未來電子產(chǎn)業(yè)最龐大的應(yīng)用范疇之一,人工智能是不可回避的話題。人工智能的飛速發(fā)展,正以年均超過100%的算力需求增長驅(qū)動底層架構(gòu)的革新,“開放、靈活、可定制”的RISC-V已成為構(gòu)建自主AI算力基石的戰(zhàn)略支點。人工智能分論壇邀請各方企業(yè)探討RISC-V架構(gòu)如何利用其開源、開放、可擴(kuò)展的特性,實現(xiàn)AI計算架構(gòu)的革新,以及RISC-V架構(gòu)在AI軟硬件的最新進(jìn)展和應(yīng)用落地情況。
知合計算解決方案總監(jiān)黃怡皓分享了他們在基于RISC-V架構(gòu)的大模型技術(shù)創(chuàng)新與應(yīng)用進(jìn)展。從2017年6月份開始,Transformer橫空出世到2025年7月份總共已經(jīng)經(jīng)歷了8年的時間。這個周期里面有幾個標(biāo)志性的事件:2022年11月份ChatGPT實現(xiàn)引領(lǐng)了一大波對于大模型的期待。然后到了今年1月份DeepSeek的出現(xiàn),讓大家又對現(xiàn)在國產(chǎn)化及開源大模型的認(rèn)知到達(dá)了一個新的高度??梢钥吹侥P驮谡麄€過程中經(jīng)歷了很多的變化,但是不管它的技術(shù)創(chuàng)新點如何調(diào)整、它的底層架構(gòu)依然是Transformer。
現(xiàn)在雖然模型整體是“百花齊放”的,但是核心算子卻一直在逐漸的趨同。這里是有三個模型簡介:最早的GPT-2,之后千問及DeepSeek R1模型,它們的模型架構(gòu)非常統(tǒng)一,前面部分就是Attertion。到了第二個階段FFN,到最后提出一個新的FFN就是MOE架構(gòu)、目的為了減少計算量。這幾個模型的變化都集中在具體的架構(gòu)內(nèi)部里面,而沒有改變整個Transformer的結(jié)構(gòu),他們的算子也基本上集中在“22個、21個”左右。這“22個、21個”算子其實大家都是比較一致的。 現(xiàn)在模型的算力不但算子集中,而且模型的子之間的算力也非常集中。在所有的算子中,我們排了一個用途最多的幾個算子,DeepSeep7B模型中核心算子共11個,Matmul計算量占比約95%。
RISC-V本身作為一個開源的指令集,它的可擴(kuò)展性非常強,在上面集成了AME指令,它現(xiàn)在完美適配了Matmul算子。11個算子中除了3個算子外,其他均可以采用AME去做優(yōu)化。模型創(chuàng)新除了在架構(gòu)層面微創(chuàng)新之外,還有一個點就是大家都在調(diào)整算子的數(shù)據(jù)格式,包括最早的FP32到現(xiàn)在DeepSeek的FP8等這些算子我們現(xiàn)在都支持了?,F(xiàn)在AME算子指令能夠做到矩陣大小16行,每一行大概可以做到512bit大小、一次可以做到相當(dāng)于一個字節(jié)的矩陣大小。
黃怡皓分享的核心觀點是AI在Transformer之后,將從原來單純的識別功能走向現(xiàn)在認(rèn)知的功能。下圖最左側(cè)是傳統(tǒng)CNN網(wǎng)絡(luò)做卷積,它能夠?qū)崿F(xiàn)最直接的效果就是識別,能夠知道“行人、汽車、動物”,但是很難識別它們之間的關(guān)系。接入大模型之后,可以通過Transformer、統(tǒng)一大買性可以判斷不同物體之間的動作及相互之間的關(guān)系。第一張圖是“熊貓吃竹子”的動作,第二張圖是“植物上的昆蟲”、只會把停留在植物之上的昆蟲識別出來。除了這兩個場景之外,我們也跟客戶合作做了一些家庭的場景,就是他們有一個需求:“搜索小孩子是在學(xué)習(xí),以及小孩子是在玩手機?!蔽覀冏隽艘粋€比較典型的場景,就是傳統(tǒng)的CNN放是可以實現(xiàn)這個功能、過程比較復(fù)雜,需要先識別人、再識別手機,然后識別人的手臂,再識別手臂跟手機的相互位置關(guān)系,才能判斷小孩子到底是不是在玩手機。而通過我們的模型,直接搜索“兒童玩手機”,就可以區(qū)分的很清楚。
針對AI已經(jīng)實現(xiàn)的場景及功能,知合計算提供了“通推一體”CPU產(chǎn)品A210,支持Transformer架構(gòu),,第二個芯片A600搜查的算子、架構(gòu)、內(nèi)都是統(tǒng)一的,包括所有對外的接口都是統(tǒng)一的,知合希望用戶在對接這些接口都變得非常的流暢、非常的順滑。基于A210平臺做的AI智能體方案中,整個過程把前端的語音輸入到中期數(shù)據(jù)處理,以及到后續(xù)的輸出都做了一套完整的AI智能體。在我們的角度來看,現(xiàn)在想要做一個完全標(biāo)準(zhǔn)化的AI智能體其實難度是非常大的。端測芯片作為A210這樣一個端側(cè)芯片來說,它更適合做一些標(biāo)準(zhǔn)化的細(xì)分場景的AI智能體。我們用模型取代中間的一些模糊的過程,特別是第二段內(nèi)容“既要刪除掉原來的巨無霸漢堡,然后換了一個拼盤、加了一杯可樂。”這種場景原來處理非常大,但是我們把這些全都交給模型處理得到這樣的結(jié)果。
在A210用于“模糊搜索”應(yīng)用案例中涉及到三幀圖象的識別,這三幀圖象分別指針到“蜘蛛俠變身”三個最重要的位置。第二個場景是火災(zāi),我們不需要針對特殊的場景去做針對性的訓(xùn)練,因為依托于大模型的泛化能力、它其實可以給用戶非常簡單的方式就可以去搜索一些其想要的內(nèi)容,而不需要針對每個場景進(jìn)行特定的數(shù)據(jù)材料收集及二次訓(xùn)練。這個圖象可以看到它停留在火災(zāi)起火的那一秒、應(yīng)該是在12秒的時間上,有一個明確的時間點告訴我們這個視頻在12幀的時候起火了。通過這種“模糊搜索”在安防、電影搜索,其實是非常簡便的方式。我們自己也測試過,基于這個模型可以去搜索“門打開的場景”,可以把門打開的一瞬間定位出來。
基于A21做的兩個典型的場景演示表明,大模型的算子統(tǒng)一在一定程度上為RISC-V提供了一個生態(tài)紅利。RISC-V在傳統(tǒng)邏輯上來說跟ARM存在非常大的生態(tài)差距,因為算子的統(tǒng)一反而RISC-V在做矩陣、向量這些計算上面大家回到了同一個起跑線。因為RISC-V的開源、以及現(xiàn)在大模型的逐漸開源,可以讓大家對這些算子的優(yōu)化更加迅速、也更加的直接。知合認(rèn)為AI能力已經(jīng)開始慢慢從“識別”走向了“認(rèn)知”,這個過程中如何將新的這些AI能力跟通用計算能力結(jié)合起來,是知合計算接下來要去主要推進(jìn)的方向。
評論