博客專欄

EEPW首頁 > 博客 > 降低傳統(tǒng)路徑依賴,華為推出AI推理新技術(shù)

降低傳統(tǒng)路徑依賴,華為推出AI推理新技術(shù)

發(fā)布人:ht1973 時(shí)間:2025-08-13 來源:工程師 發(fā)布文章

8月12日,華為在一場會議中對外推出AI推理新技術(shù)UCM(推理記憶數(shù)據(jù)管理器,Unified Cache Manager),這是一款以KV Cache和記憶管理為中心的推理加速套件,通過推理框架、算力、存儲三層協(xié)同,優(yōu)化Tokens在各業(yè)務(wù)環(huán)節(jié)中流轉(zhuǎn)的效率,以降低每Token的推理成本。

華為公司副總裁、數(shù)據(jù)存儲產(chǎn)品線總裁周躍峰在演講中表示,AI時(shí)代,模型訓(xùn)練、推理效率與體驗(yàn)的量綱都以Token數(shù)為表征,Token經(jīng)濟(jì)已經(jīng)到來。“但在一定時(shí)間內(nèi)推理的Token數(shù)上,中國頭部互聯(lián)網(wǎng)公司與海外頭部互聯(lián)網(wǎng)公司仍有差距?!?/p>

根據(jù)華為會上公布的數(shù)據(jù),國外主流模型的單用戶輸出速度已進(jìn)入200 Tokens/s區(qū)間(時(shí)延5ms),而我國普遍小于60Tokens/s(時(shí)延50 - 100ms),因此,如何解決推理效率與用戶體驗(yàn)的難題迫在眉睫。目前,包括華為在內(nèi),各大科技企業(yè)都會在調(diào)度KV Cache基礎(chǔ)上,研發(fā)優(yōu)化推理過程的技術(shù)。

以高帶寬內(nèi)存(HBM)為例,在AI推理進(jìn)程中,本應(yīng)是數(shù)據(jù)順暢流轉(zhuǎn)的 “高速通道”,但現(xiàn)實(shí)是資源常常緊缺。一旦HBM資源不足,AI推理便會出現(xiàn)任務(wù)卡頓、響應(yīng)遲緩等問題。UCM的研發(fā)方向主要在于不再單純依賴HBM這一 “獨(dú)木橋”,而是在存儲層面構(gòu)建起一個(gè)多層級、可靈活調(diào)配的資源體系,使得推理過程中的數(shù)據(jù)能夠在不同存儲介質(zhì)間合理流動,充分利用各級存儲的優(yōu)勢。

根據(jù)華為的測試驗(yàn)證,UCM可將首Token時(shí)延最高降低90%,系統(tǒng)吞吐最大提升22倍,實(shí)現(xiàn)10倍級上下文窗口擴(kuò)展。

但從技術(shù)上看,盡管國內(nèi)廠商在AI推理的硬件層面,如算力芯片等方面取得了一定進(jìn)展,但在以KV Cache為核心的軟件體系構(gòu)建上,尚未形成完整、成熟且具有廣泛適用性的解決方案。而在國外,已經(jīng)有一些較為成熟的基于KV Cache的推理加速軟件框架與工具,能夠很好地與各類硬件平臺適配。

華為在會上表示,希望聯(lián)合產(chǎn)業(yè)界的力量,推進(jìn)以記憶數(shù)據(jù)管理為中心的AI推理生態(tài)。

“目前業(yè)界缺乏一套在各種場景下都能普適適用的框架、加速機(jī)制與算法,我們希望通過將部分成果開放,促進(jìn)框架廠商、存儲廠商以及GPU廠商共同加速這一框架機(jī)制的成熟,最終解決當(dāng)前AI行業(yè)落地過程中的效率與成本問題。”華為數(shù)據(jù)存儲產(chǎn)品線AI存儲首席架構(gòu)師李國杰表示,華為計(jì)劃在今年9月正式開源UCM。

中國信息通信研究院人工智能研究所平臺與工程化部主任曹峰表示,“系統(tǒng)級的推理架構(gòu)優(yōu)化已經(jīng)形成主流,但不是單點(diǎn)技術(shù)的突破,我們要從整個(gè)芯片級的、軟件級的,再到上層的框架級的進(jìn)行協(xié)同考慮,形成整個(gè)推理架構(gòu),這也是未來產(chǎn)業(yè)的發(fā)展重點(diǎn)?!?/p>


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。


關(guān)鍵詞: 半導(dǎo)體

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉