降低傳統(tǒng)路徑依賴，華為推出AI推理新技術(shù)

發(fā)布人：ht1973 時(shí)間：2025-08-13 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

8月12日，華為在一場會議中對外推出AI推理新技術(shù)UCM（推理記憶數(shù)據(jù)管理器，Unified Cache Manager），這是一款以KV Cache和記憶管理為中心的推理加速套件，通過推理框架、算力、存儲三層協(xié)同，優(yōu)化Tokens在各業(yè)務(wù)環(huán)節(jié)中流轉(zhuǎn)的效率，以降低每Token的推理成本。

華為公司副總裁、數(shù)據(jù)存儲產(chǎn)品線總裁周躍峰在演講中表示，AI時(shí)代，模型訓(xùn)練、推理效率與體驗(yàn)的量綱都以Token數(shù)為表征，Token經(jīng)濟(jì)已經(jīng)到來。“但在一定時(shí)間內(nèi)推理的Token數(shù)上，中國頭部互聯(lián)網(wǎng)公司與海外頭部互聯(lián)網(wǎng)公司仍有差距?！?/p>

根據(jù)華為會上公布的數(shù)據(jù)，國外主流模型的單用戶輸出速度已進(jìn)入200 Tokens/s區(qū)間（時(shí)延5ms），而我國普遍小于60Tokens/s（時(shí)延50 - 100ms），因此，如何解決推理效率與用戶體驗(yàn)的難題迫在眉睫。目前，包括華為在內(nèi)，各大科技企業(yè)都會在調(diào)度KV Cache基礎(chǔ)上，研發(fā)優(yōu)化推理過程的技術(shù)。

以高帶寬內(nèi)存（HBM）為例，在AI推理進(jìn)程中，本應(yīng)是數(shù)據(jù)順暢流轉(zhuǎn)的 “高速通道”，但現(xiàn)實(shí)是資源常常緊缺。一旦HBM資源不足，AI推理便會出現(xiàn)任務(wù)卡頓、響應(yīng)遲緩等問題。UCM的研發(fā)方向主要在于不再單純依賴HBM這一 “獨(dú)木橋”，而是在存儲層面構(gòu)建起一個(gè)多層級、可靈活調(diào)配的資源體系，使得推理過程中的數(shù)據(jù)能夠在不同存儲介質(zhì)間合理流動，充分利用各級存儲的優(yōu)勢。

根據(jù)華為的測試驗(yàn)證，UCM可將首Token時(shí)延最高降低90%，系統(tǒng)吞吐最大提升22倍，實(shí)現(xiàn)10倍級上下文窗口擴(kuò)展。

但從技術(shù)上看，盡管國內(nèi)廠商在AI推理的硬件層面，如算力芯片等方面取得了一定進(jìn)展，但在以KV Cache為核心的軟件體系構(gòu)建上，尚未形成完整、成熟且具有廣泛適用性的解決方案。而在國外，已經(jīng)有一些較為成熟的基于KV Cache的推理加速軟件框架與工具，能夠很好地與各類硬件平臺適配。

華為在會上表示，希望聯(lián)合產(chǎn)業(yè)界的力量，推進(jìn)以記憶數(shù)據(jù)管理為中心的AI推理生態(tài)。

“目前業(yè)界缺乏一套在各種場景下都能普適適用的框架、加速機(jī)制與算法，我們希望通過將部分成果開放，促進(jìn)框架廠商、存儲廠商以及GPU廠商共同加速這一框架機(jī)制的成熟，最終解決當(dāng)前AI行業(yè)落地過程中的效率與成本問題。”華為數(shù)據(jù)存儲產(chǎn)品線AI存儲首席架構(gòu)師李國杰表示，華為計(jì)劃在今年9月正式開源UCM。

中國信息通信研究院人工智能研究所平臺與工程化部主任曹峰表示，“系統(tǒng)級的推理架構(gòu)優(yōu)化已經(jīng)形成主流，但不是單點(diǎn)技術(shù)的突破，我們要從整個(gè)芯片級的、軟件級的，再到上層的框架級的進(jìn)行協(xié)同考慮，形成整個(gè)推理架構(gòu)，這也是未來產(chǎn)業(yè)的發(fā)展重點(diǎn)?！?/p>

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請聯(lián)系工作人員刪除。