新聞中心

EEPW首頁(yè) > 智能計(jì)算 > 業(yè)界動(dòng)態(tài) > GTC2025演講回顧——黃仁勛的“終極摩爾定律”:買越多,賺越多

GTC2025演講回顧——黃仁勛的“終極摩爾定律”:買越多,賺越多

作者:宗煜 時(shí)間:2025-04-15 來(lái)源:EEPW 收藏


本文引用地址:http://www.2s4d.com/article/202504/469424.htm

北京時(shí)間3 月18 日凌晨,當(dāng)東半球當(dāng)大部分人都處在睡夢(mèng)之中時(shí),AI 相關(guān)領(lǐng)域的相關(guān)從業(yè)者必定是一個(gè)無(wú)眠之夜。在地球的另一段,硅谷圣何塞的晨曦之中,NVIDIA 創(chuàng)始人標(biāo)志性的皮衣身影再次登上GTC大會(huì)舞臺(tái)。這場(chǎng)被外界稱為“年度AI 風(fēng)向標(biāo)”的GTC大會(huì)主題演講,用兩小時(shí)編織了一張橫跨芯片、云計(jì)算、通信網(wǎng)絡(luò)和機(jī)器人技術(shù)的未來(lái)藍(lán)圖。

1744716412648597.png

1   如今的挫折,不影響未來(lái)的輝煌

“到2030 年,全球數(shù)據(jù)中心資產(chǎn)投入將突破1 萬(wàn)億美元?!?a class="contentlabel" href="http://www.2s4d.com/news/listbylabel/label/黃仁勛">黃仁勛的開場(chǎng)宣言直指英偉達(dá)的核心戰(zhàn)場(chǎng)。他用一張條形圖直接框定了英偉達(dá)如今的疆域:代表英偉達(dá)營(yíng)收的黃色區(qū)塊已占據(jù)2024 年數(shù)據(jù)中心服務(wù)市場(chǎng)的四分之一,而更大的野心藏在那些尚未被填滿的空白里。

這個(gè)預(yù)測(cè)基于一個(gè)簡(jiǎn)單卻暴烈的邏輯:全球AI 算力需求正以每年10 倍速度膨脹,但GPU 供給量?jī)H能維持2 倍增長(zhǎng)。當(dāng)大模型參數(shù)規(guī)模突破百萬(wàn)億,當(dāng)視頻生成AI 吃掉整座超算中心的算力,傳統(tǒng)云計(jì)算架構(gòu)正在經(jīng)歷“核爆式重構(gòu)”。特別展示了一組對(duì)比數(shù)據(jù):搭載72 顆B200 芯片的NVL72 服務(wù)器,其推理吞吐量較前代產(chǎn)品提升7 倍,而能耗反而下降25%。這不禁讓人想起英偉達(dá)一直信奉的“黃氏定律”—— AI 計(jì)算推理性能每年翻一倍。

1744716464310833.png

這背后的暗示不言而喻: 英偉達(dá)目前沒有被DeepSeek R1 所影響,雖然現(xiàn)在股價(jià)是跌了,但是未來(lái)大大的好,未來(lái)全是Money。

1744716522367949.png

2   如今的CUDA還是很強(qiáng)

如果說(shuō)硬件是肌肉,CUDA 生態(tài)才是英偉達(dá)的真正骨骼。面對(duì)AMD、英特爾乃至亞馬遜自研芯片的圍攻,黃仁勛用整整20 分鐘系統(tǒng)闡釋了CUDA 的“軟實(shí)力”。從cuDNN 到NCCL,從Triton 推理服務(wù)器到新開源的分布式推理庫(kù),這些深藏于代碼層的工具鏈構(gòu)成了難以復(fù)制的技術(shù)壁壘。

“我們最新開源的推理加速庫(kù),可以讓百億參數(shù)模型在異構(gòu)計(jì)算集群上的部署效率提升40%。”黃仁勛現(xiàn)場(chǎng)演示的案例中,一個(gè)包含文本生成、圖像識(shí)別和語(yǔ)音合成的多模態(tài)AI系統(tǒng),通過(guò)動(dòng)態(tài)任務(wù)分配算法自動(dòng)調(diào)度CPU、GPU和DPU資源。這讓人聯(lián)想到三周前中國(guó)的DeepSeek開源的DeepGEMM項(xiàng)目—— 當(dāng)行業(yè)頂尖玩家都在拼命優(yōu)化底層算子時(shí),英偉達(dá)選擇將部分核心武器開源,既鞏固了生態(tài)主導(dǎo)權(quán),又為硬件銷售鋪就更深的護(hù)城河。

1744716647306333.png

3   GTC金句:“買越多,賺越多”

隨后介紹的“6G 時(shí)代+ 邊緣計(jì)算”、汽車智駕的安全方案等等,都幾乎毫無(wú)波瀾。全場(chǎng)的第一個(gè)高潮自然還是GPU,在這一頁(yè)P(yáng)PT 出現(xiàn)后,NVDA 的股票終于止住了從發(fā)布會(huì)開始一直以來(lái)的跌幅,即118.9 → 116.5(2%),怒回117.5。

黃仁勛表示,未來(lái)推理的需求會(huì)暴增,而且是像R1 一樣的推理類模型,而最適配R1 這類推理模型的平臺(tái),自然是他自己的NVL72(搭載了72 個(gè)B200 芯片的服務(wù)器)。

1744716786134384.png

他從吞吐量和計(jì)算速度兩個(gè)維度反復(fù)說(shuō)明,用了一個(gè)AI 工廠的比喻,將推理比喻成Token 的生產(chǎn)工廠。那么最大的回報(bào)值一定是產(chǎn)生在吞吐量和計(jì)算速度的最優(yōu)函數(shù)中—— NVL72。

黃仁勛進(jìn)一步表示,在同樣的水平下,相較于H100 是45 K GPU,1400 個(gè)機(jī)架,產(chǎn)生300 M 的輸出;而NVL則是85 K GPU(更強(qiáng)),600 個(gè)機(jī)架(更少空間),以及12000 M 的輸出(40 倍)。隨即,老黃便說(shuō)出了今年GTC 的金句:“the more you buy, the more you make”(買得越多,賺得越多)。通過(guò)高效的AI 基礎(chǔ)設(shè)施和強(qiáng)大的計(jì)算能力,企業(yè)可以在AI 應(yīng)用中實(shí)現(xiàn)更高的收益。

1744716875178522.png

4   Blackwell Ultra與Rubin架構(gòu):英偉達(dá)“核彈”的暴力美學(xué)

隨后黃仁勛公布了他的全新“核彈”—— Blackwell Ultra。這款專為推理任務(wù)優(yōu)化的GPU 怪獸,將顯存容量從192GB 暴力提升至288GB,配合Dynamo技術(shù)實(shí)現(xiàn)的推理性能躍升,使其單機(jī)架性能達(dá)到Hopper 架構(gòu)的40 倍。這意味著原本需要整個(gè)數(shù)據(jù)中心支撐的智能體系統(tǒng),現(xiàn)在只需一個(gè)機(jī)柜就能完成實(shí)時(shí)響應(yīng)。我們正在見證AI 工廠的誕生,就像工業(yè)革命中蒸汽機(jī)取代水力,Blackwell 正在重新定義智能生產(chǎn)的效率邊界。

這場(chǎng)性能革命的核心突破在于“推理時(shí)擴(kuò)展”(Inference Scaling)的全新路徑。DeepSeek R1 模型在Blackwell 平臺(tái)上的表現(xiàn)驗(yàn)證了這一點(diǎn)—— 通過(guò)動(dòng)態(tài)調(diào)整計(jì)算資源分配,模型在復(fù)雜決策任務(wù)中實(shí)現(xiàn)了近乎線性的性能擴(kuò)展。這種突破不僅讓“Scaling Law 撞墻論”不攻自破,更開辟了AI 系統(tǒng)從訓(xùn)練到部署的全新范式。值得關(guān)注的是,英偉達(dá)首次將訓(xùn)練與推理架構(gòu)分離,Blackwell Ultra 專為推理優(yōu)化的設(shè)計(jì)理念,預(yù)示著未來(lái)AI 芯片將進(jìn)入場(chǎng)景細(xì)分的定制化時(shí)代。

而隨著以發(fā)現(xiàn)暗物質(zhì)的科學(xué)家“Vera Rubin”命名的下一代架構(gòu)的公布,全場(chǎng)迎來(lái)的最高潮,其將在2026年下半年開啟英偉達(dá)的“后Blackwell 時(shí)代”。

1744716913388439.png

Vera Rubin 有兩個(gè)部分,一個(gè)稱為Vera 的CPU 和一個(gè)稱為Rubin 的新GPU。當(dāng)它們協(xié)同使用時(shí),將首次實(shí)現(xiàn)了每秒50 千萬(wàn)億次浮點(diǎn)運(yùn)算的推理性能,這是現(xiàn)有架構(gòu)兩倍以上的算力密度。與此同時(shí),為了匹配這恐怖的算力,Rubin 的帶寬將會(huì)有大幅升級(jí),HBM4 內(nèi)存與NVLink 7 的組合—— 13 TB/s 的帶寬和260 TB/s 的互連吞吐量,讓數(shù)據(jù)洪流在芯片間奔涌時(shí)不再遭遇任何瓶頸。

自然, Rubin 架構(gòu)也有ultra 版本,它將在2027 年問(wèn)世。作為算力怪物中的怪物,其在FP4 精度下的推理性能達(dá)到15 ExaFLOPS,相當(dāng)于150 億億次運(yùn)算每秒。配合4.6 PB/s 的內(nèi)存帶寬,這意味著單個(gè)機(jī)架就能承載相當(dāng)于現(xiàn)在整個(gè)城市級(jí)數(shù)據(jù)中心的AI 負(fù)載。" 我們正在突破的不是技術(shù)極限,而是人類想象力的邊界。" 黃仁勛用這句話為Rubin 架構(gòu)的發(fā)布畫下驚嘆號(hào)。

從 Blackwell 到 Rubin,英偉達(dá)用三年時(shí)間完成了從 68 倍到 900 倍的浮點(diǎn)運(yùn)算能力躍升,而總擁有成本(TCO)曲線卻以反比例態(tài)勢(shì)持續(xù)下探。筆者也是沒想到,幾年前還在為 Blackwell 的恐怖算力而驚嘆,現(xiàn)在它已經(jīng)在 Rubin 的襯托下,變成了一個(gè)“小老弟”。

1744716961702311.png

5   發(fā)布會(huì)上的其他內(nèi)容

馬斯克自己造了一個(gè)名為“Colossus”的超級(jí)訓(xùn)練集群,從而力大磚飛一般的訓(xùn)練出了“Grok3”。

如此巨量的網(wǎng)絡(luò)集群用于訓(xùn)練,彼此之間的通信就顯得尤其重要。但是,如何解決這些巨量的網(wǎng)絡(luò)通信變得困難重重,這就是英偉達(dá)想要著手解決的問(wèn)題,也就是Spectrum-X 以太網(wǎng)網(wǎng)絡(luò)平臺(tái)。在現(xiàn)場(chǎng),老黃為了解釋這個(gè)事情多么困難,還拿了兩根線纜來(lái)解釋10 萬(wàn)卡互聯(lián)有多恐怖。于是我們就看到他就在臺(tái)上花了2 分鐘解開糾纏在一起的兩根繩子……確實(shí)是很困難了。

1744717065382039.png

除此之外,外界普遍猜測(cè)的CPO 也是如約發(fā)布。在傳統(tǒng)光通信架構(gòu)中,交換系統(tǒng)與光電轉(zhuǎn)換模塊各自獨(dú)立部署于電路板之上,信號(hào)需經(jīng)歷“光模塊光電轉(zhuǎn)換-電路板走線- 交換機(jī)處理”的三段式旅程。這種物理隔離的設(shè)計(jì)不僅增加信號(hào)衰減風(fēng)險(xiǎn),更因PCB 走線產(chǎn)生的寄生效應(yīng)嚴(yán)重制約傳輸速率上限。CPO(共封裝光學(xué))技術(shù)通過(guò)將光引擎與交換芯片三維堆疊集成,將原本毫米級(jí)的傳輸距離壓縮至微米尺度,不僅顯著縮短信號(hào)傳輸路徑,更通過(guò)混合鍵合工藝實(shí)現(xiàn)芯片級(jí)光電融合,使每瓦特功耗下的數(shù)據(jù)傳輸密度提升達(dá)20 倍,從根本上重構(gòu)了高速互連的技術(shù)范式。

英偉達(dá)本次所發(fā)布的首款共封裝硅光子系統(tǒng)(CPO)。這項(xiàng)基于微環(huán)諧振器調(diào)制器的黑科技,通過(guò)臺(tái)積電先進(jìn)制程將光子引擎直接集成到交換機(jī)芯片,創(chuàng)造了每秒1.6 T 的傳輸神話。傳統(tǒng)架構(gòu)中占據(jù)30% 功耗的收發(fā)器被徹底拋棄,512 徑基數(shù)的光交換矩陣讓GPU 集群擴(kuò)展突破物理限制。這種突破不僅解除了大規(guī)模并行計(jì)算的規(guī)模魔咒,更讓“AI 工廠”的概念真正具備商業(yè)可行性—— 任何制造業(yè)企業(yè)都能以合理成本構(gòu)建自己的智能生產(chǎn)中樞。

最后,老黃也表示全球勞動(dòng)力短缺的陰影逐漸籠罩制造業(yè)、物流業(yè)和醫(yī)療服務(wù)業(yè),在這個(gè)背景之下,機(jī)器人的重要性逐漸凸顯。因此,英偉達(dá)正式官宣了世界首個(gè)開源、完全可定制的通用人形機(jī)器人模型——GROOT N1。

GROOT 所采用的“雙系統(tǒng)架構(gòu)”與芯片設(shè)計(jì)中的異構(gòu)計(jì)算理念異曲同工。系統(tǒng)2(慢思考)如同芯片中的中央處理器,通過(guò)視覺語(yǔ)言模型對(duì)環(huán)境進(jìn)行語(yǔ)義解析,將”把紅色零件裝入三號(hào)工位”的指令拆解為空間定位、路徑規(guī)劃等邏輯步驟;而系統(tǒng)1(快思考)則像專用加速器,將抽象指令轉(zhuǎn)化為每秒上千次計(jì)算的關(guān)節(jié)運(yùn)動(dòng)軌跡。這種分層處理架構(gòu)使得20 億參數(shù)的模型就能實(shí)現(xiàn)傳統(tǒng)百億級(jí)模型的復(fù)雜任務(wù)處理能力。

此外,英偉達(dá)還與DeepMind、迪士尼研究一起開發(fā)下一代開源的Newton 物理引擎,能夠讓機(jī)器人學(xué)習(xí)如何更精確處理復(fù)雜任務(wù)。

在發(fā)布會(huì)上,還展示了一下以星球大戰(zhàn)BDX 機(jī)器人為靈感的機(jī)器人Blue(確實(shí)還挺可愛的),它與老黃來(lái)了一波有趣的互動(dòng)。

1744717086476422.png

6   結(jié)束語(yǔ)

從“交流電之父”尼古拉·特斯拉到暗物質(zhì)發(fā)現(xiàn)者薇拉·魯賓(Vera Rubin),這些命名揭示著英偉達(dá)的終極野心:用計(jì)算的力量破解物理世界的本質(zhì)規(guī)律。這種野心在商業(yè)層面轉(zhuǎn)化為恐怖的執(zhí)行力—— 每年迭代的架構(gòu)節(jié)奏、三年四代的工藝躍進(jìn)、五年千倍的性能提升,正在將摩爾定律改寫為“黃氏定律”。

站在GTC 2025 的時(shí)間節(jié)點(diǎn)回望,黃仁勛在2016 年那句“英偉達(dá)是家軟件公司”的論斷終于完全顯現(xiàn)其深意。當(dāng)硬件性能開始觸碰物理極限,通過(guò)架構(gòu)創(chuàng)新、連接革命和生態(tài)協(xié)同構(gòu)建的復(fù)合優(yōu)勢(shì),正在開辟超越制程進(jìn)步的“第二增長(zhǎng)曲線”。這種“三位一體”的創(chuàng)新范式,或許才是英偉達(dá)持續(xù)統(tǒng)治AI 計(jì)算王座的真正密碼。

這場(chǎng)被稱作“AI 超級(jí)碗”的盛會(huì),最終在開發(fā)者經(jīng)久不息的掌聲中落下帷幕。但黃仁勛留下的不僅是一串驚人的技術(shù)參數(shù),更是一個(gè)清晰的未來(lái)圖景:當(dāng)每個(gè)工廠都擁有自己的AI 中樞,當(dāng)百萬(wàn)GPU 集群在硅基神經(jīng)網(wǎng)絡(luò)中自由對(duì)話,人類將迎來(lái)生產(chǎn)力進(jìn)化的新紀(jì)元。在這個(gè)紀(jì)元里,算力不再是稀缺資源,而是像電力般流淌在智能世界的每根“血管”中—— 而這,正是英偉達(dá)為全人類書寫的未來(lái)腳本。

在最后的最后,筆者也有一個(gè)期待黃仁勛解答,但是沒有獲得老黃解答的問(wèn)題與各位讀者探討:算力通縮到底存不存在?

(本文來(lái)源于《EEPW》



評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉