華為推出 UCM 算法以減少對(duì) HBM 的依賴，據(jù)報(bào)道將在 9 月開源

作者：時(shí)間：2025-08-13 來源：

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

雖然當(dāng)?shù)孛襟w關(guān)注華為減少中國(guó) HBM 對(duì)人工智能推理的依賴，但這家科技巨頭在 8 月 12 日發(fā)布了 UCM（統(tǒng)一計(jì)算內(nèi)存）——據(jù)我的駕駛和證券時(shí)報(bào)報(bào)道，這是一種人工智能推理突破，可大幅降低延遲和成本，同時(shí)提高效率。

值得注意的是，報(bào)道表明華為將在 2025 年 9 月開源 UCM，首先在 MagicEngine 社區(qū)推出，然后貢獻(xiàn)給主流推理引擎，并與 Share Everything 存儲(chǔ)供應(yīng)商和生態(tài)系統(tǒng)合作伙伴分享。

UCM 的變革性功能

《證券時(shí)報(bào)》援引華為數(shù)字金融 CEO 曹健的話指出，高延遲和高成本仍然是當(dāng)今 AI 推理開發(fā)面臨的主要挑戰(zhàn)。正如報(bào)道所指出的，目前國(guó)際領(lǐng)先模型實(shí)現(xiàn)了單用戶輸出速度為每秒 200 個(gè) token（5 毫秒延遲），而中國(guó)模型通常低于每秒 60 個(gè) token（50-100 毫秒延遲）。

根據(jù)報(bào)道，華為將 UCM 描述為一個(gè)以 KV（鍵值）緩存技術(shù)為核心的 AI 推理加速工具包。該系統(tǒng)據(jù)說結(jié)合了多種緩存優(yōu)化算法，以智能管理 AI 處理過程中產(chǎn)生的 KV 緩存內(nèi)存數(shù)據(jù)。這種方法擴(kuò)展了推理上下文窗口，實(shí)現(xiàn)了高吞吐量、低延遲的性能，同時(shí)降低了每個(gè) token 的推理成本，報(bào)道補(bǔ)充道。

證券時(shí)報(bào)報(bào)道，UCM 根據(jù)內(nèi)存熱模式自動(dòng)將緩存數(shù)據(jù)分配到 HBM、DRAM 和 SSD 存儲(chǔ)中。據(jù)報(bào)道，該系統(tǒng)通過結(jié)合多種稀疏注意力算法，優(yōu)化計(jì)算和存儲(chǔ)協(xié)調(diào)，在長(zhǎng)序列場(chǎng)景中提供 2-22 倍更高的每秒令牌數(shù)（TPS），同時(shí)降低每個(gè)令牌的成本。

另一方面，據(jù)報(bào)道，華為官員解釋說，在多輪對(duì)話和知識(shí)搜索應(yīng)用中，該系統(tǒng)直接訪問之前存儲(chǔ)的數(shù)據(jù)，而不是重新計(jì)算所有內(nèi)容，將初始響應(yīng)延遲減少高達(dá)90%。

降低對(duì) HBM 的依賴

根據(jù) EE Times China 的報(bào)道，華為的新技術(shù)不僅提高了 AI 推理效率，還可能減少對(duì) HBM 內(nèi)存的依賴，提升國(guó)內(nèi) AI 大模型推理性能，并加強(qiáng)中國(guó)的 AI 推理生態(tài)系統(tǒng)。

EETimes China 報(bào)道，自 2025 年 1 月 2 日起，美國(guó)禁止向中國(guó)出口 HBM2E 及更高等級(jí)的 HBM 芯片。該禁令不僅涵蓋在美國(guó)制造的 HBM 芯片，還包括使用美國(guó)技術(shù)在國(guó)外生產(chǎn)的芯片。

華為在 AI 推理方面的突破并非新事。據(jù)報(bào)告，該公司已取得多個(gè)里程碑，包括與北京大學(xué)合作開發(fā)的 DeepSeek 開源推理解決方案，以及在其 Ascend 平臺(tái)上實(shí)現(xiàn)的數(shù)項(xiàng)性能提升。此外，華為與科大訊飛的合作伙伴關(guān)系取得了顯著成果，使 MoE（專家混合模型）在大規(guī)模專家分布方面得以在國(guó)產(chǎn)計(jì)算基礎(chǔ)設(shè)施上實(shí)現(xiàn)，推理速度提升三倍，響應(yīng)延遲減半，報(bào)告補(bǔ)充道。

新聞中心

華為推出 UCM 算法以減少對(duì) HBM 的依賴，據(jù)報(bào)道將在 9 月開源

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)