新聞中心

EEPW首頁 > 智能計(jì)算 > 市場(chǎng)分析 > 國產(chǎn)「十萬卡」集群開始落地

國產(chǎn)「十萬卡」集群開始落地

作者: 時(shí)間:2025-06-30 來源:半導(dǎo)體產(chǎn)業(yè)縱橫 收藏

在人工智能飛速發(fā)展的當(dāng)下,算力已然成為核心競(jìng)爭(zhēng)力的關(guān)鍵要素。由顯卡規(guī)模撐起的算力水平,是決定大模型性能的最重要指標(biāo)之一。一般認(rèn)為,1 萬枚英偉達(dá) A100 芯片,是做好 AI 大模型的算力門檻。

本文引用地址:http://www.2s4d.com/article/202506/471846.htm

2024 年,我國智算中心建設(shè)駛?cè)肟燔嚨?,最明顯的感受就是項(xiàng)目加速落地。,是指由一萬張及以上 GPU、TPU 等專用 AI 加速芯片組成的高性能計(jì)算系統(tǒng),它深度融合高性能 GPU 計(jì)算、高速網(wǎng)絡(luò)通信、大容量并行文件存儲(chǔ)以及智能計(jì)算平臺(tái)等前沿技術(shù),將底層基礎(chǔ)設(shè)施整合成一臺(tái)超級(jí)強(qiáng)大的「算力巨獸」。借助這樣的集群,千億乃至萬億參數(shù)規(guī)模的大模型訓(xùn)練得以高效完成,大幅縮短模型迭代周期,助力 AI 技術(shù)快速進(jìn)化。

然而,隨著 AGI 的概念持續(xù)火熱,行業(yè)對(duì)算力的渴求愈發(fā)強(qiáng)烈,「」逐漸難以滿足爆發(fā)式增長(zhǎng)的需求,算力領(lǐng)域的「軍備競(jìng)賽」愈演愈烈。如今,十萬卡集群已成為全球頂尖大模型企業(yè)的「兵家必爭(zhēng)之地」,xAI、Meta、OpenAI 等國際巨頭紛紛布局,國內(nèi)企業(yè)也不甘示弱,積極投身這場(chǎng)算力角逐。

十萬卡集群挑戰(zhàn)巨大

在全球范圍內(nèi),OpenAI、微軟、xAI 和 Meta 等頭部科技公司競(jìng)相構(gòu)建超 10 萬卡規(guī)模的 GPU 集群。這一宏大計(jì)劃背后,是驚人的資金投入,僅服務(wù)器成本就超過 40 億美元。此外,數(shù)據(jù)中心的空間限制、電力供應(yīng)不足等問題,也如同攔路虎,阻礙著項(xiàng)目推進(jìn)。

而在國內(nèi),建一個(gè)萬卡集群,單是 GPU 的采購成本就高達(dá)幾十億,因此國內(nèi)能夠部署萬卡規(guī)模集群的,原本就只有阿里、百度等寥寥幾家大廠。而想要部署十萬卡集群,其「燒錢」程度可想而知。

除了資金成本,十萬卡集群建設(shè)還面臨著諸多技術(shù)難題。

首先是電力與散熱的極限考驗(yàn)。十萬卡 H100 集群僅關(guān)鍵 IT 設(shè)備就需約 150MW 電力,遠(yuǎn)超單個(gè)數(shù)據(jù)中心建筑的承載能力,需通過園區(qū)多建筑分布式部署實(shí)現(xiàn)電力分配,同時(shí)還要應(yīng)對(duì)電壓波動(dòng)與穩(wěn)定性難題。而散熱系統(tǒng)更需匹配巨量熱負(fù)荷—高密度 GPU 運(yùn)行時(shí)產(chǎn)生的熱量若無法及時(shí)疏導(dǎo),將直接導(dǎo)致設(shè)備宕機(jī),高效散熱方案的能耗與維護(hù)成本也需同步優(yōu)化。GPU 是一種很敏感的硬件,連一天之內(nèi)氣溫的波動(dòng),都會(huì)影響到 GPU 的故障率,而且規(guī)模越大,出故障的概率就越高。Meta 訓(xùn)練 llama3 的時(shí)候,用了 1.6 萬張 GPU 卡的集群,平均每 3 小時(shí)就會(huì)出一次故障。

此外,區(qū)別于傳統(tǒng) CPU 集群的串行特點(diǎn),大模型訓(xùn)練過程需要全部顯卡同時(shí)參與并行計(jì)算,對(duì)網(wǎng)絡(luò)傳輸能力也提出了更大的挑戰(zhàn)。若采用胖樹拓?fù)鋵?shí)現(xiàn)全 GPU 高帶寬互聯(lián),四層交換的硬件成本將呈指數(shù)級(jí)增長(zhǎng),因此通常采用「計(jì)算島」模式:島內(nèi)以高帶寬保障通信效率,島間則降低帶寬以控制成本。但這要求在張量并行、數(shù)據(jù)并行等不同訓(xùn)練模式下,精準(zhǔn)平衡通信任務(wù)分配,避免因拓?fù)湓O(shè)計(jì)缺陷導(dǎo)致帶寬瓶頸。尤其當(dāng)模型規(guī)模突破萬億參數(shù)時(shí),前端網(wǎng)絡(luò)的通信量會(huì)隨稀疏技術(shù)應(yīng)用急劇增加,延遲與帶寬的優(yōu)化需精細(xì)化權(quán)衡。

最后,相比于美國同行,中國大模型企業(yè)還面臨一重特殊的困難。由于總所周知的原因,國內(nèi)企業(yè)無法像馬斯克那樣全部采用英偉達(dá)方案,而是需要使用包括國產(chǎn) GPU 在內(nèi)的異構(gòu)芯片。這也意味著,即使同樣十萬張顯卡,國內(nèi)企業(yè)在算力規(guī)模上也很難同美國企業(yè)匹敵。

算力是大模型發(fā)展的核心,但算力的增長(zhǎng)已從線性變?yōu)槠矫?。?gòu)建十萬卡集群不僅是算力的增長(zhǎng),還涉及技術(shù)和運(yùn)營(yíng)挑戰(zhàn),管理 10 萬卡集群與萬卡集群有本質(zhì)區(qū)別。

國產(chǎn)「十萬卡」集群加速落地

「芯片問題其實(shí)沒必要擔(dān)心,用疊加和集群等方法,計(jì)算結(jié)果上與最先進(jìn)水平是相當(dāng)?shù)??!谷A為總裁任正非的這番表態(tài),不僅增強(qiáng)了社會(huì)各界對(duì)中國 AI 發(fā)展的信心,也凸顯了集群計(jì)算在 AI 研發(fā)應(yīng)用中的關(guān)鍵地位。從曾經(jīng)的「萬卡集群」入場(chǎng)券,到如今「十萬卡集群」新目標(biāo),國內(nèi)智算中心建設(shè)不斷邁向新高度。

去年 9 月,一項(xiàng)瞄準(zhǔn)十萬卡超大規(guī)模算力的單體集群建設(shè)計(jì)劃——「算海計(jì)劃」二期宣布落地啟動(dòng)?!杆愫S?jì)劃」取「海納百川、聚沙成塔」之義,劍指籌建面向模型訓(xùn)練的大規(guī)模單體集群。據(jù)介紹,「算海計(jì)劃」二期由北京并行科技股份有限公司(以下簡(jiǎn)稱并行科技)發(fā)起,合作伙伴北京智譜華章科技有限公司、北京面壁智能科技有限責(zé)任公司、中國移動(dòng)通信集團(tuán)湖北有限公司武漢分公司、中國聯(lián)合網(wǎng)絡(luò)通信有限公司武漢市分公司、中國電信股份有限公司武漢分公司、武漢大學(xué)信息中心、內(nèi)蒙古新東吉泰科技公司參與啟動(dòng)儀式。在內(nèi)蒙古和林格爾,占地超 50 畝的「算海計(jì)劃」一期建設(shè)項(xiàng)目已于今年 5 月上線運(yùn)營(yíng),該項(xiàng)目規(guī)劃有 4000 個(gè) 20kW 高功率智算機(jī)柜,最大可支持建設(shè) 6 萬卡規(guī)模的單體智算集群。在距離該項(xiàng)目不超過 100 米處,「算海計(jì)劃」二期項(xiàng)目已規(guī)劃上馬,二期將依托單一大集群進(jìn)行統(tǒng)一管理和調(diào)度,可容納高達(dá) 10 萬卡的強(qiáng)大算力資源。

2024 年 7 月底,甘肅億算智能科技有限公司已在慶陽投資 3.07 億元建成了中國首個(gè)國產(chǎn)萬卡推理集群。而在今年 6 月,甘肅億算及其生態(tài)合作伙伴計(jì)劃出資 55 億元,建設(shè)「國產(chǎn)十萬卡算力集群」,提供不低于 2.5 萬 P 算力服務(wù),預(yù)計(jì)于 2027 年 12 月 30 日前建成并投入使用。本次擬落地慶陽的十萬卡算力集群,計(jì)劃全部采用國產(chǎn)芯片與自主架構(gòu),深度融合慶陽能源優(yōu)勢(shì)與長(zhǎng)三角技術(shù)勢(shì)能,構(gòu)建「西部算力+東部智慧」全國聯(lián)動(dòng),打造開放算力平臺(tái),為 AI 大模型訓(xùn)練與科學(xué)計(jì)算筑牢「中國底座」。

字節(jié)跳動(dòng)在智算領(lǐng)域的布局同樣雄心勃勃。2024 年,其資本開支達(dá) 800 億人民幣,接近 BAT 三家總和(約 1000 億人民幣)。預(yù)計(jì) 2025 年,這一數(shù)字將翻倍至 1600 億人民幣,其中 900 億用于 AI 算力采購,700 億投向數(shù)據(jù)中心基礎(chǔ)設(shè)施建設(shè)及配套硬件。據(jù)第三方機(jī)構(gòu)測(cè)算,以 400T (FP16) AI 算力卡為標(biāo)準(zhǔn),字節(jié)跳動(dòng)當(dāng)前訓(xùn)練算力需求約為 26.73 萬張卡,文本推理算力需求約為 33.67 萬張卡,未來推理算力需求有望突破 230 萬張卡。

國產(chǎn) AI 芯片公司,得到利好

在這股熱潮中,有能力建設(shè)十萬卡集群的國產(chǎn) AI 芯片公司也將獲得利好。

在 6 月 20 日舉行的華為開發(fā)者大會(huì) 2025(HDC 2025)上,華為常務(wù)董事、華為云計(jì)算 CEO 張平安宣布,基于 CloudMatrix384 超節(jié)點(diǎn)的新一代昇騰 AI 云服務(wù)全面上線,為大模型應(yīng)用提供澎湃算力。 通過 432 節(jié)點(diǎn)級(jí)聯(lián),可構(gòu)建 16 萬卡超算集群,滿足十萬億參數(shù)級(jí)大模型訓(xùn)練需求,突破傳統(tǒng)架構(gòu)擴(kuò)展極限。

華為云新一代昇騰 AI 云服務(wù)基于 CloudMatrix384 超節(jié)點(diǎn),首創(chuàng)將 384 顆昇騰 NPU 和 192 顆鯤鵬 CPU 通過全新高速網(wǎng)絡(luò) MatrixLink 全對(duì)等互聯(lián),形成一臺(tái)超級(jí)「AI 服務(wù)器」,單卡推理吞吐量躍升到 2300 Tokens/s。

超節(jié)點(diǎn)架構(gòu)能更好地支持混合專家 MoE 大模型的推理,可以實(shí)現(xiàn)「一卡一專家」,一個(gè)超節(jié)點(diǎn)可以支持 384 個(gè)專家并行推理,極大提升效率。同時(shí),超節(jié)點(diǎn)還可以支持「一卡一算力任務(wù)」,靈活分配資源,提升任務(wù)并行處理,減少等待,將算力有效使用率(MFU)提升 50% 以上。同時(shí),超節(jié)點(diǎn)還可以支持訓(xùn)推算力一體部署,如「日推夜訓(xùn)」,訓(xùn)推算力可靈活分配,幫助客戶資源使用最優(yōu)。

此外,百度的百舸 4.0 通過 HPN 高性能網(wǎng)絡(luò)、自動(dòng)化混訓(xùn)切分策略、自研集合通信庫等一系列產(chǎn)品技術(shù)創(chuàng)新,已經(jīng)能夠?qū)崿F(xiàn)十萬卡集群的高效管理。

騰訊去年也宣布了自研星脈高性能計(jì)算網(wǎng)絡(luò)全面升級(jí),星脈網(wǎng)絡(luò) 2.0 搭載全自研的網(wǎng)絡(luò)設(shè)備與 AI 算力網(wǎng)卡,能夠支持超 10 萬卡大規(guī)模組網(wǎng),網(wǎng)絡(luò)通信效率比上一代提升 60%,讓大模型訓(xùn)練效率提升 20%。

阿里方面同樣釋出消息,阿里云可實(shí)現(xiàn)芯片、服務(wù)器、數(shù)據(jù)中心之間的高效協(xié)同,支持 10 萬卡量級(jí)的集群可擴(kuò)展規(guī)模,已服務(wù)全國一半的人工智能大模型企業(yè)。

算力互聯(lián)網(wǎng)和東數(shù)西算打通市場(chǎng)堵點(diǎn)

當(dāng)前,我國智能算力供不應(yīng)求的問題較為突出,大模型對(duì)算力的需求增速遠(yuǎn)超單顆 AI 芯片性能的提升步伐。相關(guān)報(bào)告顯示,2023 年,中國智能算力需求達(dá) 123.6EFLOPS,而供給僅為 57.9EFLOPS,供需缺口一目了然。利用集群互聯(lián)彌補(bǔ)單卡性能短板,或是現(xiàn)階段緩解 AI 算力荒最值得探索與實(shí)踐的有效途徑。

「十萬卡集群」建成后如何充分挖掘其應(yīng)用價(jià)值,使其在人工智能訓(xùn)練、大數(shù)據(jù)分析等適配場(chǎng)景發(fā)揮最大作用,杜絕資源空置與浪費(fèi)現(xiàn)象的問題亟待解決。智算中心的建設(shè)只是一個(gè)開端,更重要的是后續(xù)的有效運(yùn)用。也就是說,如何打通市場(chǎng)堵點(diǎn)才是關(guān)鍵。在此背景下,為解決相關(guān)市場(chǎng)堵點(diǎn),算力互聯(lián)網(wǎng)和東數(shù)西算被提出并受到廣泛關(guān)注。

算力互聯(lián)網(wǎng),并非一張全新的網(wǎng)絡(luò),而是基于現(xiàn)有互聯(lián)網(wǎng),將各地分散的算力資源連接起來,借助標(biāo)準(zhǔn)化的算力標(biāo)識(shí)與協(xié)議接口,跨域?qū)崿F(xiàn)資源互聯(lián)網(wǎng)絡(luò),達(dá)成全網(wǎng)異構(gòu)算力的智能感知、實(shí)時(shí)發(fā)現(xiàn)與隨需獲取。簡(jiǎn)單來說,它就是一張服務(wù)于算力流動(dòng)的網(wǎng)絡(luò),旨在進(jìn)一步推動(dòng)算力的互聯(lián)互通,盤活現(xiàn)有算力資源,提升使用效率,降低使用成本,為用戶帶來更優(yōu)質(zhì)的體驗(yàn)。5 月 17 日,中國信通院會(huì)同三大運(yùn)營(yíng)商聯(lián)合啟動(dòng)「算力互聯(lián)網(wǎng)試驗(yàn)網(wǎng)」建設(shè),并發(fā)布《算力互聯(lián)網(wǎng)體系架構(gòu) 1.0》。這一舉措旨在面向通算、智算、超算,以及云、邊、端等公共算力資源,實(shí)現(xiàn)三家運(yùn)營(yíng)商自有算力和全國分散社會(huì)算力的互聯(lián),讓用戶能便捷地「找、調(diào)、用」算力。未來,用戶有望像按「千瓦時(shí)」用電一樣,按「卡時(shí)」靈活購買使用算力資源,實(shí)現(xiàn)用多少買多少的便捷服務(wù)。

而東數(shù)西算工程,則是通過構(gòu)建數(shù)據(jù)中心、云計(jì)算、大數(shù)據(jù)一體化的新型算力網(wǎng)絡(luò)體系,把東部的算力需求有序引導(dǎo)至西部,優(yōu)化數(shù)據(jù)中心建設(shè)布局,促進(jìn)東西部協(xié)同聯(lián)動(dòng)。2022 年 2 月,國家在京津冀、長(zhǎng)三角、粵港澳大灣區(qū)、成渝、內(nèi)蒙古、貴州、甘肅、寧夏 8 地啟動(dòng)建設(shè)國家算力樞紐節(jié)點(diǎn),并規(guī)劃 10 個(gè)國家數(shù)據(jù)中心集群,標(biāo)志著東數(shù)西算工程正式全面啟動(dòng)。其核心目的是讓西部的算力資源更充分地支撐東部數(shù)據(jù)的運(yùn)算,為數(shù)字化發(fā)展賦能。一方面,能緩解東部能源緊張問題;另一方面,為西部開辟新的發(fā)展道路。

通過算力互聯(lián)網(wǎng)和東數(shù)西算的協(xié)同推進(jìn),有望打通市場(chǎng)堵點(diǎn),優(yōu)化算力資源配置,推動(dòng)我國 AI 產(chǎn)業(yè)的持續(xù)健康發(fā)展。一方面,算力互聯(lián)網(wǎng)能實(shí)現(xiàn)算力資源的跨區(qū)域、跨行業(yè)流通,提升資源利用效率;另一方面,東數(shù)西算可利用西部的能源和土地資源優(yōu)勢(shì),降低算力成本,同時(shí)緩解東部的數(shù)據(jù)中心建設(shè)壓力。二者相輔相成,共同為我國智能算力供需失衡問題提供解決方案。

如果說 2024 年是我國萬卡集群的元年,2025 年,十萬卡集群也要來了。



關(guān)鍵詞: 萬卡集群

評(píng)論


技術(shù)專區(qū)

關(guān)閉