國產(chǎn)「十萬卡」集群開始落地

作者：時(shí)間：2025-06-30 來源：半導(dǎo)體產(chǎn)業(yè)縱橫

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

在人工智能飛速發(fā)展的當(dāng)下，算力已然成為核心競(jìng)爭(zhēng)力的關(guān)鍵要素。由顯卡規(guī)模撐起的算力水平，是決定大模型性能的最重要指標(biāo)之一。一般認(rèn)為，1 萬枚英偉達(dá) A100 芯片，是做好 AI 大模型的算力門檻。

本文引用地址：http://www.2s4d.com/article/202506/471846.htm

2024 年，我國智算中心建設(shè)駛?cè)肟燔嚨?，最明顯的感受就是萬卡集群項(xiàng)目加速落地。萬卡集群，是指由一萬張及以上 GPU、TPU 等專用 AI 加速芯片組成的高性能計(jì)算系統(tǒng)，它深度融合高性能 GPU 計(jì)算、高速網(wǎng)絡(luò)通信、大容量并行文件存儲(chǔ)以及智能計(jì)算平臺(tái)等前沿技術(shù)，將底層基礎(chǔ)設(shè)施整合成一臺(tái)超級(jí)強(qiáng)大的「算力巨獸」。借助這樣的集群，千億乃至萬億參數(shù)規(guī)模的大模型訓(xùn)練得以高效完成，大幅縮短模型迭代周期，助力 AI 技術(shù)快速進(jìn)化。

然而，隨著 AGI 的概念持續(xù)火熱，行業(yè)對(duì)算力的渴求愈發(fā)強(qiáng)烈，「萬卡集群」逐漸難以滿足爆發(fā)式增長(zhǎng)的需求，算力領(lǐng)域的「軍備競(jìng)賽」愈演愈烈。如今，十萬卡集群已成為全球頂尖大模型企業(yè)的「兵家必爭(zhēng)之地」，xAI、Meta、OpenAI 等國際巨頭紛紛布局，國內(nèi)企業(yè)也不甘示弱，積極投身這場(chǎng)算力角逐。

十萬卡集群挑戰(zhàn)巨大

在全球范圍內(nèi)，OpenAI、微軟、xAI 和 Meta 等頭部科技公司競(jìng)相構(gòu)建超 10 萬卡規(guī)模的 GPU 集群。這一宏大計(jì)劃背后，是驚人的資金投入，僅服務(wù)器成本就超過 40 億美元。此外，數(shù)據(jù)中心的空間限制、電力供應(yīng)不足等問題，也如同攔路虎，阻礙著項(xiàng)目推進(jìn)。

而在國內(nèi)，建一個(gè)萬卡集群，單是 GPU 的采購成本就高達(dá)幾十億，因此國內(nèi)能夠部署萬卡規(guī)模集群的，原本就只有阿里、百度等寥寥幾家大廠。而想要部署十萬卡集群，其「燒錢」程度可想而知。

除了資金成本，十萬卡集群建設(shè)還面臨著諸多技術(shù)難題。

首先是電力與散熱的極限考驗(yàn)。十萬卡 H100 集群僅關(guān)鍵 IT 設(shè)備就需約 150MW 電力，遠(yuǎn)超單個(gè)數(shù)據(jù)中心建筑的承載能力，需通過園區(qū)多建筑分布式部署實(shí)現(xiàn)電力分配，同時(shí)還要應(yīng)對(duì)電壓波動(dòng)與穩(wěn)定性難題。而散熱系統(tǒng)更需匹配巨量熱負(fù)荷—高密度 GPU 運(yùn)行時(shí)產(chǎn)生的熱量若無法及時(shí)疏導(dǎo)，將直接導(dǎo)致設(shè)備宕機(jī)，高效散熱方案的能耗與維護(hù)成本也需同步優(yōu)化。GPU 是一種很敏感的硬件，連一天之內(nèi)氣溫的波動(dòng)，都會(huì)影響到 GPU 的故障率，而且規(guī)模越大，出故障的概率就越高。Meta 訓(xùn)練 llama3 的時(shí)候，用了 1.6 萬張 GPU 卡的集群，平均每 3 小時(shí)就會(huì)出一次故障。

此外，區(qū)別于傳統(tǒng) CPU 集群的串行特點(diǎn)，大模型訓(xùn)練過程需要全部顯卡同時(shí)參與并行計(jì)算，對(duì)網(wǎng)絡(luò)傳輸能力也提出了更大的挑戰(zhàn)。若采用胖樹拓?fù)鋵?shí)現(xiàn)全 GPU 高帶寬互聯(lián)，四層交換的硬件成本將呈指數(shù)級(jí)增長(zhǎng)，因此通常采用「計(jì)算島」模式：島內(nèi)以高帶寬保障通信效率，島間則降低帶寬以控制成本。但這要求在張量并行、數(shù)據(jù)并行等不同訓(xùn)練模式下，精準(zhǔn)平衡通信任務(wù)分配，避免因拓?fù)湓O(shè)計(jì)缺陷導(dǎo)致帶寬瓶頸。尤其當(dāng)模型規(guī)模突破萬億參數(shù)時(shí)，前端網(wǎng)絡(luò)的通信量會(huì)隨稀疏技術(shù)應(yīng)用急劇增加，延遲與帶寬的優(yōu)化需精細(xì)化權(quán)衡。

最后，相比于美國同行，中國大模型企業(yè)還面臨一重特殊的困難。由于總所周知的原因，國內(nèi)企業(yè)無法像馬斯克那樣全部采用英偉達(dá)方案，而是需要使用包括國產(chǎn) GPU 在內(nèi)的異構(gòu)芯片。這也意味著，即使同樣十萬張顯卡，國內(nèi)企業(yè)在算力規(guī)模上也很難同美國企業(yè)匹敵。

算力是大模型發(fā)展的核心，但算力的增長(zhǎng)已從線性變?yōu)槠矫?。?gòu)建十萬卡集群不僅是算力的增長(zhǎng)，還涉及技術(shù)和運(yùn)營(yíng)挑戰(zhàn)，管理 10 萬卡集群與萬卡集群有本質(zhì)區(qū)別。

國產(chǎn)「十萬卡」集群加速落地

「芯片問題其實(shí)沒必要擔(dān)心，用疊加和集群等方法，計(jì)算結(jié)果上與最先進(jìn)水平是相當(dāng)?shù)??！谷A為總裁任正非的這番表態(tài)，不僅增強(qiáng)了社會(huì)各界對(duì)中國 AI 發(fā)展的信心，也凸顯了集群計(jì)算在 AI 研發(fā)應(yīng)用中的關(guān)鍵地位。從曾經(jīng)的「萬卡集群」入場(chǎng)券，到如今「十萬卡集群」新目標(biāo)，國內(nèi)智算中心建設(shè)不斷邁向新高度。

去年 9 月，一項(xiàng)瞄準(zhǔn)十萬卡超大規(guī)模算力的單體集群建設(shè)計(jì)劃——「算海計(jì)劃」二期宣布落地啟動(dòng)?！杆愫Ｓ?jì)劃」取「海納百川、聚沙成塔」之義，劍指籌建面向模型訓(xùn)練的大規(guī)模單體集群。據(jù)介紹，「算海計(jì)劃」二期由北京并行科技股份有限公司（以下簡(jiǎn)稱并行科技）發(fā)起，合作伙伴北京智譜華章科技有限公司、北京面壁智能科技有限責(zé)任公司、中國移動(dòng)通信集團(tuán)湖北有限公司武漢分公司、中國聯(lián)合網(wǎng)絡(luò)通信有限公司武漢市分公司、中國電信股份有限公司武漢分公司、武漢大學(xué)信息中心、內(nèi)蒙古新東吉泰科技公司參與啟動(dòng)儀式。在內(nèi)蒙古和林格爾，占地超 50 畝的「算海計(jì)劃」一期建設(shè)項(xiàng)目已于今年 5 月上線運(yùn)營(yíng)，該項(xiàng)目規(guī)劃有 4000 個(gè) 20kW 高功率智算機(jī)柜，最大可支持建設(shè) 6 萬卡規(guī)模的單體智算集群。在距離該項(xiàng)目不超過 100 米處，「算海計(jì)劃」二期項(xiàng)目已規(guī)劃上馬，二期將依托單一大集群進(jìn)行統(tǒng)一管理和調(diào)度，可容納高達(dá) 10 萬卡的強(qiáng)大算力資源。

2024 年 7 月底，甘肅億算智能科技有限公司已在慶陽投資 3.07 億元建成了中國首個(gè)國產(chǎn)萬卡推理集群。而在今年 6 月，甘肅億算及其生態(tài)合作伙伴計(jì)劃出資 55 億元，建設(shè)「國產(chǎn)十萬卡算力集群」，提供不低于 2.5 萬 P 算力服務(wù)，預(yù)計(jì)于 2027 年 12 月 30 日前建成并投入使用。本次擬落地慶陽的十萬卡算力集群，計(jì)劃全部采用國產(chǎn)芯片與自主架構(gòu)，深度融合慶陽能源優(yōu)勢(shì)與長(zhǎng)三角技術(shù)勢(shì)能，構(gòu)建「西部算力+東部智慧」全國聯(lián)動(dòng)，打造開放算力平臺(tái)，為 AI 大模型訓(xùn)練與科學(xué)計(jì)算筑牢「中國底座」。

字節(jié)跳動(dòng)在智算領(lǐng)域的布局同樣雄心勃勃。2024 年，其資本開支達(dá) 800 億人民幣，接近 BAT 三家總和（約 1000 億人民幣）。預(yù)計(jì) 2025 年，這一數(shù)字將翻倍至 1600 億人民幣，其中 900 億用于 AI 算力采購，700 億投向數(shù)據(jù)中心基礎(chǔ)設(shè)施建設(shè)及配套硬件。據(jù)第三方機(jī)構(gòu)測(cè)算，以 400T (FP16) AI 算力卡為標(biāo)準(zhǔn)，字節(jié)跳動(dòng)當(dāng)前訓(xùn)練算力需求約為 26.73 萬張卡，文本推理算力需求約為 33.67 萬張卡，未來推理算力需求有望突破 230 萬張卡。

國產(chǎn) AI 芯片公司，得到利好

在這股熱潮中，有能力建設(shè)十萬卡集群的國產(chǎn) AI 芯片公司也將獲得利好。

在 6 月 20 日舉行的華為開發(fā)者大會(huì) 2025（HDC 2025）上，華為常務(wù)董事、華為云計(jì)算 CEO 張平安宣布，基于 CloudMatrix384 超節(jié)點(diǎn)的新一代昇騰 AI 云服務(wù)全面上線，為大模型應(yīng)用提供澎湃算力。通過 432 節(jié)點(diǎn)級(jí)聯(lián)，可構(gòu)建 16 萬卡超算集群，滿足十萬億參數(shù)級(jí)大模型訓(xùn)練需求，突破傳統(tǒng)架構(gòu)擴(kuò)展極限。

華為云新一代昇騰 AI 云服務(wù)基于 CloudMatrix384 超節(jié)點(diǎn)，首創(chuàng)將 384 顆昇騰 NPU 和 192 顆鯤鵬 CPU 通過全新高速網(wǎng)絡(luò) MatrixLink 全對(duì)等互聯(lián)，形成一臺(tái)超級(jí)「AI 服務(wù)器」，單卡推理吞吐量躍升到 2300 Tokens/s。

超節(jié)點(diǎn)架構(gòu)能更好地支持混合專家 MoE 大模型的推理，可以實(shí)現(xiàn)「一卡一專家」，一個(gè)超節(jié)點(diǎn)可以支持 384 個(gè)專家并行推理，極大提升效率。同時(shí)，超節(jié)點(diǎn)還可以支持「一卡一算力任務(wù)」，靈活分配資源，提升任務(wù)并行處理，減少等待，將算力有效使用率（MFU）提升 50% 以上。同時(shí)，超節(jié)點(diǎn)還可以支持訓(xùn)推算力一體部署，如「日推夜訓(xùn)」，訓(xùn)推算力可靈活分配，幫助客戶資源使用最優(yōu)。

此外，百度的百舸 4.0 通過 HPN 高性能網(wǎng)絡(luò)、自動(dòng)化混訓(xùn)切分策略、自研集合通信庫等一系列產(chǎn)品技術(shù)創(chuàng)新，已經(jīng)能夠?qū)崿F(xiàn)十萬卡集群的高效管理。

騰訊去年也宣布了自研星脈高性能計(jì)算網(wǎng)絡(luò)全面升級(jí)，星脈網(wǎng)絡(luò) 2.0 搭載全自研的網(wǎng)絡(luò)設(shè)備與 AI 算力網(wǎng)卡，能夠支持超 10 萬卡大規(guī)模組網(wǎng)，網(wǎng)絡(luò)通信效率比上一代提升 60%，讓大模型訓(xùn)練效率提升 20%。

阿里方面同樣釋出消息，阿里云可實(shí)現(xiàn)芯片、服務(wù)器、數(shù)據(jù)中心之間的高效協(xié)同，支持 10 萬卡量級(jí)的集群可擴(kuò)展規(guī)模，已服務(wù)全國一半的人工智能大模型企業(yè)。

算力互聯(lián)網(wǎng)和東數(shù)西算打通市場(chǎng)堵點(diǎn)

當(dāng)前，我國智能算力供不應(yīng)求的問題較為突出，大模型對(duì)算力的需求增速遠(yuǎn)超單顆 AI 芯片性能的提升步伐。相關(guān)報(bào)告顯示，2023 年，中國智能算力需求達(dá) 123.6EFLOPS，而供給僅為 57.9EFLOPS，供需缺口一目了然。利用集群互聯(lián)彌補(bǔ)單卡性能短板，或是現(xiàn)階段緩解 AI 算力荒最值得探索與實(shí)踐的有效途徑。

「十萬卡集群」建成后如何充分挖掘其應(yīng)用價(jià)值，使其在人工智能訓(xùn)練、大數(shù)據(jù)分析等適配場(chǎng)景發(fā)揮最大作用，杜絕資源空置與浪費(fèi)現(xiàn)象的問題亟待解決。智算中心的建設(shè)只是一個(gè)開端，更重要的是后續(xù)的有效運(yùn)用。也就是說，如何打通市場(chǎng)堵點(diǎn)才是關(guān)鍵。在此背景下，為解決相關(guān)市場(chǎng)堵點(diǎn)，算力互聯(lián)網(wǎng)和東數(shù)西算被提出并受到廣泛關(guān)注。

算力互聯(lián)網(wǎng)，并非一張全新的網(wǎng)絡(luò)，而是基于現(xiàn)有互聯(lián)網(wǎng)，將各地分散的算力資源連接起來，借助標(biāo)準(zhǔn)化的算力標(biāo)識(shí)與協(xié)議接口，跨域?qū)崿F(xiàn)資源互聯(lián)網(wǎng)絡(luò)，達(dá)成全網(wǎng)異構(gòu)算力的智能感知、實(shí)時(shí)發(fā)現(xiàn)與隨需獲取。簡(jiǎn)單來說，它就是一張服務(wù)于算力流動(dòng)的網(wǎng)絡(luò)，旨在進(jìn)一步推動(dòng)算力的互聯(lián)互通，盤活現(xiàn)有算力資源，提升使用效率，降低使用成本，為用戶帶來更優(yōu)質(zhì)的體驗(yàn)。5 月 17 日，中國信通院會(huì)同三大運(yùn)營(yíng)商聯(lián)合啟動(dòng)「算力互聯(lián)網(wǎng)試驗(yàn)網(wǎng)」建設(shè)，并發(fā)布《算力互聯(lián)網(wǎng)體系架構(gòu) 1.0》。這一舉措旨在面向通算、智算、超算，以及云、邊、端等公共算力資源，實(shí)現(xiàn)三家運(yùn)營(yíng)商自有算力和全國分散社會(huì)算力的互聯(lián)，讓用戶能便捷地「找、調(diào)、用」算力。未來，用戶有望像按「千瓦時(shí)」用電一樣，按「卡時(shí)」靈活購買使用算力資源，實(shí)現(xiàn)用多少買多少的便捷服務(wù)。

而東數(shù)西算工程，則是通過構(gòu)建數(shù)據(jù)中心、云計(jì)算、大數(shù)據(jù)一體化的新型算力網(wǎng)絡(luò)體系，把東部的算力需求有序引導(dǎo)至西部，優(yōu)化數(shù)據(jù)中心建設(shè)布局，促進(jìn)東西部協(xié)同聯(lián)動(dòng)。2022 年 2 月，國家在京津冀、長(zhǎng)三角、粵港澳大灣區(qū)、成渝、內(nèi)蒙古、貴州、甘肅、寧夏 8 地啟動(dòng)建設(shè)國家算力樞紐節(jié)點(diǎn)，并規(guī)劃 10 個(gè)國家數(shù)據(jù)中心集群，標(biāo)志著東數(shù)西算工程正式全面啟動(dòng)。其核心目的是讓西部的算力資源更充分地支撐東部數(shù)據(jù)的運(yùn)算，為數(shù)字化發(fā)展賦能。一方面，能緩解東部能源緊張問題；另一方面，為西部開辟新的發(fā)展道路。

通過算力互聯(lián)網(wǎng)和東數(shù)西算的協(xié)同推進(jìn)，有望打通市場(chǎng)堵點(diǎn)，優(yōu)化算力資源配置，推動(dòng)我國 AI 產(chǎn)業(yè)的持續(xù)健康發(fā)展。一方面，算力互聯(lián)網(wǎng)能實(shí)現(xiàn)算力資源的跨區(qū)域、跨行業(yè)流通，提升資源利用效率；另一方面，東數(shù)西算可利用西部的能源和土地資源優(yōu)勢(shì)，降低算力成本，同時(shí)緩解東部的數(shù)據(jù)中心建設(shè)壓力。二者相輔相成，共同為我國智能算力供需失衡問題提供解決方案。

如果說 2024 年是我國萬卡集群的元年，2025 年，十萬卡集群也要來了。

新聞中心

國產(chǎn)「十萬卡」集群開始落地

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)