華為首次線下展出昇騰384超節(jié)點
7月26日,2025世界人工智能大會(WAIC)在上海世博中心啟幕,華為首次線下展出昇騰384超節(jié)點,即Atlas 900 A3 SuperPoD。具體性能上,昇騰384超節(jié)點單集群BF16稠密算力300PFLOPs,約為英偉達GB200 NVL72的1.7倍。
據介紹,該產品基于超節(jié)點架構,采用全對等(Peer-to-Peer)UB總線,將384顆NPU+192顆鯤鵬CPU通過無阻塞Clos架構互聯(lián),單跳時延<200ns,帶寬392GB/s,比傳統(tǒng)RoCE提升15倍。3168根光纖+6912個400G光模塊實現百納秒級互聯(lián),支持2m以上長距部署,突破了銅纜距離限制。
這些大帶寬低時延互聯(lián)技術,解決了昇騰384超節(jié)點集群內計算、存儲等各資源之間的通信瓶頸,通過系統(tǒng)工程的優(yōu)化,實現資源的高效調度 —— 能效比(MFU)從行業(yè)平均30%提升到45%以上,已用于訓練7180億參數的盤古Ultra MoE大模型。
值得一提的是,在今年5月的鯤鵬昇騰開發(fā)者大會上,華為推出了昇騰超節(jié)點(CloudMatrix 384),成功實現業(yè)界最大規(guī)模的384卡高速總線互聯(lián)。華為表示CloudMatrix 384超節(jié)點算力集群可實現業(yè)界最大單卡推理吞吐量2300Tokens/s,業(yè)界最大集群算力6萬卡。
據國際知名半導體研究和咨詢機構SemiAnalysis披露,華為云CM384基于384顆昇騰芯片構建,通過全互連拓撲架構實現芯片間高效協(xié)同,可提供高達300PFLOPs的密集BF16算力,接近達到英偉達GB200 NVL72系統(tǒng)的兩倍。此外,CM384在內存容量和帶寬方面同樣占據優(yōu)勢,總內存容量超出英偉達方案3.6倍,內存帶寬也達到2.1倍,為大規(guī)模AI訓練和推理提供了更高效的硬件支持。華為云表示,新一代昇騰AI云服務,是最適合大模型應用的算力服務。
華為云最新推出的AI算力集群解決方案CloudMatrix 384憑借其顛覆性的系統(tǒng)架構設計與全棧技術創(chuàng)新,在多項關鍵指標上實現對英偉達旗艦產品GB200 NVL72的超越,標志著中國在人工智能基礎設施領域實現里程碑式突破。SemiAnalysis還特別指出,華為的規(guī)模化解決方案“領先于英偉達和AMD目前市場上的產品一代”,并認為中國在AI基礎設施上的突破將對全球AI產業(yè)格局產生深遠影響。
評論