新聞中心

EEPW首頁(yè) > 智能計(jì)算 > 業(yè)界動(dòng)態(tài) > 華為推出 UCM 算法以減少對(duì) HBM 的依賴,據(jù)報(bào)道將在 9 月開源

華為推出 UCM 算法以減少對(duì) HBM 的依賴,據(jù)報(bào)道將在 9 月開源

作者: 時(shí)間:2025-08-13 來源: 收藏

雖然當(dāng)?shù)孛襟w關(guān)注減少中國(guó) HBM 對(duì)人工智能推理的依賴,但這家科技巨頭在 8 月 12 日發(fā)布了 (統(tǒng)一計(jì)算內(nèi)存)——據(jù)我的駕駛和證券時(shí)報(bào)報(bào)道,這是一種人工智能推理突破,可大幅降低延遲和成本,同時(shí)提高效率。

值得注意的是,報(bào)道表明將在 2025 年 9 月開源 ,首先在 MagicEngine 社區(qū)推出,然后貢獻(xiàn)給主流推理引擎,并與 Share Everything 存儲(chǔ)供應(yīng)商和生態(tài)系統(tǒng)合作伙伴分享。

的變革性功能

《證券時(shí)報(bào)》援引數(shù)字金融 CEO 曹健的話指出,高延遲和高成本仍然是當(dāng)今 AI 推理開發(fā)面臨的主要挑戰(zhàn)。正如報(bào)道所指出的,目前國(guó)際領(lǐng)先模型實(shí)現(xiàn)了單用戶輸出速度為每秒 200 個(gè) token(5 毫秒延遲),而中國(guó)模型通常低于每秒 60 個(gè) token(50-100 毫秒延遲)。

根據(jù)報(bào)道,華為將 UCM 描述為一個(gè)以 KV(鍵值)緩存技術(shù)為核心的 AI 推理加速工具包。該系統(tǒng)據(jù)說結(jié)合了多種緩存優(yōu)化算法,以智能管理 AI 處理過程中產(chǎn)生的 KV 緩存內(nèi)存數(shù)據(jù)。這種方法擴(kuò)展了推理上下文窗口,實(shí)現(xiàn)了高吞吐量、低延遲的性能,同時(shí)降低了每個(gè) token 的推理成本,報(bào)道補(bǔ)充道。

證券時(shí)報(bào)報(bào)道,UCM 根據(jù)內(nèi)存熱模式自動(dòng)將緩存數(shù)據(jù)分配到 HBM、DRAM 和 SSD 存儲(chǔ)中。據(jù)報(bào)道,該系統(tǒng)通過結(jié)合多種稀疏注意力算法,優(yōu)化計(jì)算和存儲(chǔ)協(xié)調(diào),在長(zhǎng)序列場(chǎng)景中提供 2-22 倍更高的每秒令牌數(shù)(TPS),同時(shí)降低每個(gè)令牌的成本。

另一方面,據(jù)報(bào)道,華為官員解釋說,在多輪對(duì)話和知識(shí)搜索應(yīng)用中,該系統(tǒng)直接訪問之前存儲(chǔ)的數(shù)據(jù),而不是重新計(jì)算所有內(nèi)容,將初始響應(yīng)延遲減少高達(dá)90%。

降低對(duì) HBM 的依賴

根據(jù) EE Times China 的報(bào)道,華為的新技術(shù)不僅提高了 AI 推理效率,還可能減少對(duì) HBM 內(nèi)存的依賴,提升國(guó)內(nèi) AI 大模型推理性能,并加強(qiáng)中國(guó)的 AI 推理生態(tài)系統(tǒng)。

EETimes China 報(bào)道,自 2025 年 1 月 2 日起,美國(guó)禁止向中國(guó)出口 HBM2E 及更高等級(jí)的 HBM 芯片。該禁令不僅涵蓋在美國(guó)制造的 HBM 芯片,還包括使用美國(guó)技術(shù)在國(guó)外生產(chǎn)的芯片。

華為在 AI 推理方面的突破并非新事。據(jù)報(bào)告,該公司已取得多個(gè)里程碑,包括與北京大學(xué)合作開發(fā)的 DeepSeek 開源推理解決方案,以及在其 Ascend 平臺(tái)上實(shí)現(xiàn)的數(shù)項(xiàng)性能提升。此外,華為與科大訊飛的合作伙伴關(guān)系取得了顯著成果,使 MoE(專家混合模型)在大規(guī)模專家分布方面得以在國(guó)產(chǎn)計(jì)算基礎(chǔ)設(shè)施上實(shí)現(xiàn),推理速度提升三倍,響應(yīng)延遲減半,報(bào)告補(bǔ)充道。



關(guān)鍵詞: 華為 HBM.人工智能 UCM

評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉