華為首次線下展出昇騰384超節(jié)點

作者：時間：2025-07-29 來源：

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

7月26日，2025世界人工智能大會（WAIC）在上海世博中心啟幕，華為首次線下展出昇騰384超節(jié)點，即Atlas 900 A3 SuperPoD。具體性能上，昇騰384超節(jié)點單集群BF16稠密算力300PFLOPs，約為英偉達GB200 NVL72的1.7倍。

據介紹，該產品基于超節(jié)點架構，采用全對等（Peer-to-Peer）UB總線，將384顆NPU+192顆鯤鵬CPU通過無阻塞Clos架構互聯(lián)，單跳時延<200ns，帶寬392GB/s，比傳統(tǒng)RoCE提升15倍。3168根光纖+6912個400G光模塊實現百納秒級互聯(lián)，支持2m以上長距部署，突破了銅纜距離限制。

這些大帶寬低時延互聯(lián)技術，解決了昇騰384超節(jié)點集群內計算、存儲等各資源之間的通信瓶頸，通過系統(tǒng)工程的優(yōu)化，實現資源的高效調度 —— 能效比（MFU）從行業(yè)平均30%提升到45%以上，已用于訓練7180億參數的盤古Ultra MoE大模型。

值得一提的是，在今年5月的鯤鵬昇騰開發(fā)者大會上，華為推出了昇騰超節(jié)點（CloudMatrix 384），成功實現業(yè)界最大規(guī)模的384卡高速總線互聯(lián)。華為表示CloudMatrix 384超節(jié)點算力集群可實現業(yè)界最大單卡推理吞吐量2300Tokens/s，業(yè)界最大集群算力6萬卡。

據國際知名半導體研究和咨詢機構SemiAnalysis披露，華為云CM384基于384顆昇騰芯片構建，通過全互連拓撲架構實現芯片間高效協(xié)同，可提供高達300PFLOPs的密集BF16算力，接近達到英偉達GB200 NVL72系統(tǒng)的兩倍。此外，CM384在內存容量和帶寬方面同樣占據優(yōu)勢，總內存容量超出英偉達方案3.6倍，內存帶寬也達到2.1倍，為大規(guī)模AI訓練和推理提供了更高效的硬件支持。華為云表示，新一代昇騰AI云服務，是最適合大模型應用的算力服務。

華為云最新推出的AI算力集群解決方案CloudMatrix 384憑借其顛覆性的系統(tǒng)架構設計與全棧技術創(chuàng)新，在多項關鍵指標上實現對英偉達旗艦產品GB200 NVL72的超越，標志著中國在人工智能基礎設施領域實現里程碑式突破。SemiAnalysis還特別指出，華為的規(guī)模化解決方案“領先于英偉達和AMD目前市場上的產品一代”，并認為中國在AI基礎設施上的突破將對全球AI產業(yè)格局產生深遠影響。

新聞中心

華為首次線下展出昇騰384超節(jié)點

評論

相關推薦

技術專區(qū)