AI性能突破1Eflop！英偉達DGX GH200發(fā)布：256個GH200芯片，144TB共享內(nèi)存！

發(fā)布人：傳感器技術(shù) 時間：2023-05-31 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

5月29日，AI芯片大廠NVIDIA（英偉達）CEO黃仁勛在COMPUTEX 2023展前發(fā)布會上，正式發(fā)布了全新的GH200 Grace Hopper超級芯片，以及基于NVIDIA NVLink Switch System 驅(qū)動的擁有256個GH200超級芯片的NVIDIA DGX GH200超級計算機，旨在助力開發(fā)面向生成式AI語言應(yīng)用、推薦系統(tǒng)和數(shù)據(jù)分析工作負載的巨型、下一代模型。

黃仁勛表示：“生成式AI、大型語言模型和推薦系統(tǒng)是現(xiàn)代經(jīng)濟的數(shù)字引擎。DGX GH200 AI超級計算機集成了NVIDIA最先進的加速計算和網(wǎng)絡(luò)技術(shù)來拓展AI的前沿?！?/p>

GH200超級芯片：整合了Grace CPU和H100 GPU，擁有2000億個晶體管

GH200超級芯片使用NVIDIA NVLink-C2C芯片互連，將基于Arm的NVIDIA Grace CPU與NVIDIA H100 Tensor Core GPU整合在了一起，以提供CPU＋GPU一致性內(nèi)存模型，從而不再需要傳統(tǒng)的CPU至GPU PCIe連接。與最新的PCIe Gen5技術(shù)相比，這也將GPU和CPU之間的帶寬提高了7倍，將互連功耗減少了5倍以上，并為DGX GH200超級計算機提供了一個600GB的Hopper架構(gòu)GPU構(gòu)建模塊。

具體來說， GH200超級芯片，是將 72 核的Grace CPU、H100 GPU、96GB 的 HBM3 和 512 GB 的 LPDDR5X 集成在同一個封裝中，擁有高達 2000 億個晶體管。這種組合提供了 CPU 和 GPU 之間驚人的數(shù)據(jù)帶寬，高達 900G / s，為某些內(nèi)存受限的工作負載提供了巨大的優(yōu)勢。

黃仁勛表示，GH200 Grace Hopper超級芯片已全面投產(chǎn)，將可為運行復(fù)雜的AI和高性能計算工作負載提供動力。

NVIDIA DGX GH200：AI性能突破1 Exaflop

NVIDIA此前的 DGX A100 系統(tǒng)只能將八個 A100 GPU 聯(lián)合起來作為一個單元，面對生成式人工智能大模型對于算力的爆炸式增長，NVIDIA的客戶迫切需要更大、更強大的系統(tǒng)。DGX GH200就是為了提供最大的吞吐量和可擴展性而設(shè)計的。

DGX GH200通過定制的NVLink Switch System（包含 36 個 NVLink 開關(guān)）將256個GH200超級芯片和高達144TB的共享內(nèi)存連接成一個單元，避免標(biāo)準(zhǔn)集群連接選項（如 InfiniBand 和以太網(wǎng)）的限制，這種新的互連方式使DGX GH200系統(tǒng)中的256個H100 GPU作為一個整體協(xié)同運行，使其成為了專為最高端的人工智能和高性能計算工作負載而設(shè)計的系統(tǒng)和參考架構(gòu)。可支持數(shù)萬億參數(shù)AI大模型訓(xùn)練。

△DGX GH200相比上代DGX A100的共享內(nèi)存容量提升了近500倍。

在 DGX GH200 系統(tǒng)中，GPU 線程可以使用 NVLink 頁表尋址來自 NVLink 網(wǎng)絡(luò)中其他 Grace Hopper 超級芯片的對等 HBM3 和 LPDDR5X 內(nèi)存。NVIDIA Magnum I/O加速庫優(yōu)化 GPU 通信以提高效率，增強所有 256 個 GPU 的應(yīng)用程序擴展。

△包含 256 個 GPU 的 NVIDIA DGX GH200與NVLink系統(tǒng)的拓撲結(jié)構(gòu)

DGX GH200系統(tǒng)中的每個Grace Hopper Superchip 都與一個NVIDIA ConnectX-7網(wǎng)絡(luò)適配器和一個NVIDIA BlueField-3 NIC配對。DGX GH200 擁有 128 TBps 對分帶寬和 230.4 TFLOPS 的 NVIDIA SHARP 網(wǎng)內(nèi)計算，可加速 AI 中常用的集體操作，并通過減少集體操作的通信開銷，將 NVLink 網(wǎng)絡(luò)系統(tǒng)的有效帶寬提高一倍。ConnectX-7 適配器還可以互連多個DGX GH200 系統(tǒng)，以擴展到超過256個GPU的更大的解決方案。

黃仁勛表示，DGX GH200 是“巨型 GPU”，這也是NVIDIA第一次使用 NVLink Switch 拓撲結(jié)構(gòu)來構(gòu)建整個超級計算機集群，這種結(jié)構(gòu)提供了比前一代系統(tǒng)高出10倍的GPU到GPU帶寬，以及7倍的CPU到GPU的帶寬。它還設(shè)計了提供比競爭對手高出 5 倍的互連功耗效率和高達 128 TB / s 的對分帶寬。該系統(tǒng)有 150 英里（約 241.4公里）的光纖，并且重達 4 萬磅（約18.14噸），但是呈現(xiàn)出來就像一個單一的 GPU。

具體性能方面，得益于DGX GH200高達144TB的共享內(nèi)存，使得其對于受 GPU內(nèi)存大小瓶頸影響的AI和HPC應(yīng)用程序的性能有了極大的提升。例如具有 TB 級嵌入式表的深度學(xué)習(xí)推薦模型 (DLRM)、TB 級圖形神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型或大型數(shù)據(jù)分析工作負載中，使用 DGX GH200 可實現(xiàn) 4 至 7 倍的加速。這表明 DGX GH200 是更高級的 AI 和 HPC 模型的更好解決方案，這些模型需要海量內(nèi)存來進行 GPU 共享內(nèi)存編程。

△大內(nèi)存 AI 工作負載的性能比較

憑借256個GH200超級芯片的加持，DGX GH200 的“AI 性能”也達到了 1 exaflop（一百萬萬億次）級別。

在軟件工具方面，DGX GH200超級計算機還配備了NVIDIA軟件，可為最大的AI和數(shù)據(jù)分析工作負載提供一個交鑰匙式全棧解決方案。NVIDIA Base Command軟件提供AI工作流程管理、企業(yè)級集群管理和多個加速計算、存儲和網(wǎng)絡(luò)基礎(chǔ)設(shè)施的庫，以及為運行AI工作負載而優(yōu)化的系統(tǒng)軟件。

此外還包含NVIDIA AI Enterprise，即NVIDIA AI平臺的軟件層。它提供100多個框架、預(yù)訓(xùn)練模型和開發(fā)工具，以簡化生成式AI、計算機視覺、語音AI等生產(chǎn)AI的開發(fā)和部署。

谷歌云、Meta和微軟將首批采用

據(jù)介紹，谷歌云、Meta和微軟將有望成為首批通過接入DGX GH200系統(tǒng)，來探索其用于生成式AI工作負載的能力的公司。NVIDIA還打算將DGX GH200設(shè)計作為藍圖提供給云服務(wù)提供商和其他超大規(guī)模企業(yè)，以便他們能夠進一步根據(jù)他們自己的基礎(chǔ)設(shè)施進行定制。

谷歌云計算副總裁Mark Lohmeyer表示：“構(gòu)建先進的生成式模型需要創(chuàng)新的AI基礎(chǔ)設(shè)施。Grace Hopper超級芯片的全新NVLink和共享內(nèi)存解決了大規(guī)模AI的關(guān)鍵瓶頸，我們期待它在谷歌云以及我們的生成式AI計劃中發(fā)揮強大的能力?！?/p>

Meta基礎(chǔ)設(shè)施、AI系統(tǒng)及加速平臺副總裁Alexis Bj?rlin表示：“隨著AI模型規(guī)模越來越大，它們需要可擴展的強大基礎(chǔ)設(shè)施，以滿足不斷增長的需求。NVIDIA的Grace Hopper設(shè)計看起來能夠讓研究人員探索新的方法來解決他們面臨的最巨大挑戰(zhàn)?！?/p>

微軟Azure基礎(chǔ)設(shè)施企業(yè)副總裁Girish Bablani表示, “在以往訓(xùn)練大型AI模型是一項資源和時間密集型任務(wù)。DGX GH200 所具備的處理TB級數(shù)據(jù)集的潛力使得開發(fā)人員能夠在更大的規(guī)模和更快的速度下進行高級別的研究?！?/p>

全新NVIDIA Helios超級計算機年底推出

NVIDIA正在打造自己的基于DGX GH200的AI超級計算機，以支持研發(fā)團隊的工作。據(jù)介紹，這臺名為NVIDIA Helios的超級計算機將配備四個DGX GH200系統(tǒng)。每個都將通過NVIDIA Quantum-2 InfiniBand 400 Gb / s 網(wǎng)絡(luò)互連，以提高訓(xùn)練大型AI模型的數(shù)據(jù)吞吐量。Helios將包含1024個Grace Hopper超級芯片，預(yù)計將于今年年底上線。

NVIDIA MGX 系統(tǒng)

NVIDIA DGX 面向最高端市場的AI系統(tǒng)，HGX 系統(tǒng)則是面向超大規(guī)模數(shù)據(jù)中心，此次NVIDIA還新推出了介于這兩者之間的的NVIDIA MGX 系統(tǒng)。

NVIDIA 表示，其OEM合作伙伴在為 AI 中心設(shè)計服務(wù)器時面臨著新的挑戰(zhàn)，這些挑戰(zhàn)可能會減慢設(shè)計和部署的速度。NVIDIA 的全新 MGX 參考設(shè)計架構(gòu)旨在加速這一過程，可以將開發(fā)時間縮短2/3至僅需6個月，開發(fā)成本也可以減少3/4。

據(jù)介紹，MGX 系統(tǒng)由模塊化設(shè)計組成，涵蓋了 NVIDIA 的 CPU 和 GPU、DPU 和網(wǎng)絡(luò)系統(tǒng)的所有方面，但也包括基于通用 x86 和 Arm 處理器的設(shè)計，擁有100 多種參考設(shè)計。NVIDIA 還提供風(fēng)冷和液冷設(shè)計選項，以適應(yīng)各種應(yīng)用場景。

ASRock Rack（永擎）、華碩、GIGABYTE（技嘉）、和碩、QCT、超微（Supermicro）都將使用 MGX 參考架構(gòu)來開發(fā)將于今年晚些時候和明年初上市的系統(tǒng)。

Spectrum-X網(wǎng)絡(luò)平臺

在發(fā)布會上，NVIDIA還推出了一個全新的加速網(wǎng)絡(luò)平臺Spectrum-X，致力于提高基于以太網(wǎng)AI云的性能與效率。

NVIDIA Spectrum-X是將NVIDIA Spectrum-4以太網(wǎng)交換機與NVIDIA BlueField-3 DPU緊密結(jié)合，取得了1.7倍的整體AI性能和能效提升，同時可在多租戶環(huán)境中提供一致、可預(yù)測的性能。

Spectrum-X為基于以太網(wǎng)的網(wǎng)絡(luò)帶來了高性能 AI 集群功能，為將 AI 更廣泛地部署到超大規(guī)?；A(chǔ)設(shè)施中提供了新的選擇。Spectrum-X 平臺還可以與現(xiàn)有的基于以太網(wǎng)的堆棧完全互操作，并提供令人印象深刻的可擴展性，單個交換機上最多 256 個 200 Gb/s 端口，或兩層葉脊拓撲中的 16,000 個端口。

Spectrum-X還提供NVIDIA加速軟件和軟件開發(fā)套件（SDK），使開發(fā)人員能夠構(gòu)建軟件定義的云原生AI應(yīng)用。

NVIDIA表示，這種端到端的功能交付，可以減少基于transformer的大規(guī)模生成式AI模型的運行時間，助力網(wǎng)絡(luò)工程師、AI數(shù)據(jù)科學(xué)家和云服務(wù)商及時取得更好的結(jié)果，并更快做出明智的決策。

目前，Nvidia Spectrum-X 平臺及其相關(guān)組件，包括 400G LinkX 光學(xué)器件，現(xiàn)已上市。全球頭部超大規(guī)模云服務(wù)商正在采用NVIDIA Spectrum-X，包括領(lǐng)先的云創(chuàng)新企業(yè)。

作為NVIDIA Spectrum-X參考設(shè)計的藍圖和測試平臺，NVIDIA正在構(gòu)建一臺超大規(guī)模生成式AI超級計算機，命名為Israel-1。它將被部署在NVIDIA以色列數(shù)據(jù)中心，由基于NVIDIA HGX平臺的戴爾PowerEdge XE9680服務(wù)器，BlueField-3 DPU和Spectrum-4交換機等打造而成。

用生成式AI激活游戲角色生命

在游戲領(lǐng)域，生成式 AI 未來有望使得游戲玩家能夠與游戲角色進行互動，并極大提高游戲的沉浸感。對此，英偉達宣布推出面向游戲的定制AI模型代工服務(wù)—Avatar Cloud Engine（ACE）for Game。

英偉達曾在2020年推出NVIDIA Omniverse，這一款基于NVIDIA RTX和皮克斯Universal Scene Description（USD）的圖形和仿真模擬平臺型產(chǎn)品，可以實現(xiàn)3D設(shè)計協(xié)作以及可擴展的多GPU實時逼真仿真。

ACE for Games則是在NVIDIA Omniverse的基礎(chǔ)上，讓開發(fā)人員可以使用它來構(gòu)建和部署用于語音、對話和動畫的自定義 AI 模型，從而使得游戲中的角色可以像真人一樣與玩家對話。主要包括了三大模塊：

一是NVIDIA NeMo大型語言模型（LLM）。這一模型使用專有數(shù)據(jù)構(gòu)建、自定義和部署語言模型，根據(jù)游戲故事的世界觀及人物背景來定制調(diào)整LLM，并且通過NeMo Guardrails來保護對話的安全性和效果。

二是NVIDIA Riva，這一模塊主要用于自動語音識別（ASR）及文本轉(zhuǎn)語音，以啟用實時語音對話。

三是NVIDIA Omniverse Audio2Face，主要用于配合語音音軌，實時為游戲角色創(chuàng)建臉部表情動畫。例如，Audio2Face搭配用于虛幻引擎5的Omniverse Connector，開發(fā)者可以直接將臉部動畫添加到MetaHuman（虛幻引擎旗下用于創(chuàng)作逼真人類角色的框架）的角色上。

英偉達表示，開發(fā)者可以整合整套“ACE 游戲開發(fā)版”解決方案，或是單獨使用自己需要的組件。

NVIDIA開發(fā)者與性能技術(shù)部門副總裁John Spitzer表示：“生成式AI將徹底改變玩家與游戲人物之間的互動方式，并極大地提高游戲沉浸感。基于我們在AI領(lǐng)域的專業(yè)知識，加上幾十年來與游戲開發(fā)者合作的經(jīng)驗，NVIDIA正率先在游戲中使用生成式AI?！?/p>

黃仁勛也演示了生成式 AI 合成語音，通過對真人聲音的模仿合成，可以讓虛擬人“化身”講任何一種語言。黃仁勛表示，AI將成為電子游戲的未來。

生成式AI助力數(shù)字化的智能工廠

目前全球各地的電子制造商正在使用新的綜合參考工作流程來推進其工業(yè)數(shù)字化進程。這套流程將融合NVIDIA的生成式AI、3D協(xié)作、仿真模擬和自主機器技術(shù)。

依托龐大的合作伙伴網(wǎng)絡(luò)，這套工作流程可幫助制造商使用一系列NVIDIA技術(shù)來規(guī)劃、建造、運營和優(yōu)化其工廠。這些技術(shù)包括：可連接頂尖計算機輔助設(shè)計（CAD）應(yīng)用以及生成式AI應(yīng)用程序接口（API）和先進框架的NVIDIA Omniverse ；用于仿真和測試機器人的NVIDIA Isaac Sim 應(yīng)用；以及可用于自動光學(xué)檢測的NVIDIA Metropolis視覺AI框架。

黃仁勛在現(xiàn)場演示時表示：“全球最大的行業(yè)所制造的都是實物，如果能先以數(shù)字化的方式制造這些產(chǎn)品，就可以節(jié)省大量成本。NVIDIA使電子產(chǎn)品制造商能夠輕松構(gòu)建和運營虛擬工廠，并實現(xiàn)制造和檢查工作流程的數(shù)字化，這大大提高了質(zhì)量和安全性，同時減少了最后一刻的意外和延誤?！?span style="margin: 0px; padding: 0px; outline: 0px; max-width: 100%; box-sizing: border-box !important; overflow-wrap: break-word !important; font-size: 18px; letter-spacing: 0.034em;">

據(jù)介紹，富士康工業(yè)互聯(lián)網(wǎng)、宣鼎、和碩、廣達和緯創(chuàng)正在使用新的參考工作流程來優(yōu)化其工作間和裝配線的運營，同時降低生產(chǎn)成本。

比如，富士康工業(yè)互聯(lián)網(wǎng)正在與NVIDIA Metropolis生態(tài)合作伙伴一起實現(xiàn)電路板質(zhì)控檢測點重要環(huán)節(jié)的自動化；宜鼎正在使用NVIDIA Metropolis實現(xiàn)產(chǎn)線光學(xué)檢測流程的自動化，實現(xiàn)降本提效。

NVIDIA還正在與數(shù)家領(lǐng)先的工具制造和服務(wù)提供商一同在各個工作流程層面建立統(tǒng)一的全棧架構(gòu)。

在系統(tǒng)層面，NVIDIA IGX Orin 提供了一個將工業(yè)級硬件與企業(yè)級軟件和支持相結(jié)合的一體化邊緣AI平臺。IGX滿足了邊緣計算獨特的耐久性和低功耗要求，同時提供了開發(fā)和運行AI應(yīng)用所需的高性能。

制造商合作伙伴包括凌華科技、研華、安提國際、Dedicated Computing、Prodrive Technologies和Yuan正在為工業(yè)和醫(yī)療市場開發(fā)由IGX驅(qū)動的系統(tǒng)，這些系統(tǒng)能夠為實際生產(chǎn)帶來數(shù)字化優(yōu)勢。

在平臺層面，Omniverse與全球領(lǐng)先的3D、模擬和生成式AI提供商相連接，這個開放的開發(fā)平臺可以讓團隊在他們喜愛的應(yīng)用之間建立互操作性，比如來自Adobe、Autodesk和西門子的應(yīng)用。

黃仁勛演示了Omniverse如何通過連接ChatGPT和Blender GPT等各種AI助手來簡化3D工作流程和Python應(yīng)用開發(fā)。NVIDIA Omniverse Cloud平臺即服務(wù)（PaaS）已上線微軟Azure，能夠向企業(yè)客戶提供Omniverse軟件應(yīng)用的全棧套件和NVIDIA OVX基礎(chǔ)架構(gòu)，其具備Azure云服務(wù)的規(guī)模和安全性。

在應(yīng)用層面，Isaac Sim使企業(yè)能夠構(gòu)建并優(yōu)化部署AI機器人。制造商可以與工業(yè)自動化公司READY Robotics合作，在將機器人部署到現(xiàn)實世界之前，在仿真中對機器人任務(wù)進行編程。SoftServe和FS Studio等仿真技術(shù)合作伙伴通過構(gòu)建基于數(shù)字孿生的仿真，為客戶縮短開發(fā)時間。

NVIDIA Metropolis中的一系列工廠自動化AI工作流程使工業(yè)方案商和制造商能夠開發(fā)、部署和管理降本提效的定制化質(zhì)量控制解決方案。包括凌華科技、安提國際、德勤、Quantiphi和西門子在內(nèi)的龐大合作伙伴生態(tài)正在幫助推廣這些解決方案。

買的越多，省的越多

黃仁勛在演講中指出，隨著加速計算和生成AI的興起，標(biāo)志著計算的革新，我們正處于一個全新計算時代的轉(zhuǎn)折點，加速計算和AI已經(jīng)被世界上幾乎所有的運算和云端公司所接受。

“每一個計算時代，你都可以從事之前無法做到的事情，人工智能時代顯然也能為我們賦予這樣的能力。”比如，“編程門檻變得極低。我們填補了數(shù)字鴻溝，現(xiàn)在，所有人都是程序員——你只需要對著電腦說話即可。”黃仁勛說，“由于如此便于使用，所以進步的速度飛快，這會影響幾乎每個行業(yè)。”

根據(jù)NVIDIA公布的數(shù)據(jù)顯示，目前已有40000家大公司和15000家初創(chuàng)公司使用英偉達技術(shù)。其中，有超過1600家生成式AI公司采用了NVIDIA技術(shù)。僅2022 年NVIDIA CUDA 軟件下載量更達2500 萬次。另外，加速計算服務(wù)、軟體與系統(tǒng)促進誕生出新的商業(yè)模式，且讓現(xiàn)有模式更具效率。

除了前面介紹的生成式AI對于游戲、智能制造等方面的助力之外，生成式AI也正為價值7000億美元的數(shù)字廣告行業(yè)帶來了新機遇。基于NVIDIA AI和Omniverse的突破性引擎可以將來自領(lǐng)先軟件制造商的創(chuàng)意3D和AI工具連接在一起，以大規(guī)模革新品牌內(nèi)容和體驗。比如，全球最大的營銷服務(wù)機構(gòu)英國WPP集團正與英偉達合作，在Omniverse Cloud上構(gòu)建首個生成式AI廣告引擎。

為了更生動的展示生成式AI 的能力，黃仁勛還把發(fā)布會變成大型卡拉OK現(xiàn)場，讓AI以其隨口說出的四句話為歌詞，進行編曲創(chuàng)作出一首歌，并邀請現(xiàn)場與會者跟他一起唱出AI做的歌曲，引發(fā)全場熱情。

黃仁勛還在發(fā)布會上對比了使用 GPU 和 CPU 建設(shè)數(shù)據(jù)中心的差異。他聲稱，同樣的投資，客戶可以使用更少的 GPU 建設(shè)一個能夠處理更大數(shù)據(jù)量的數(shù)據(jù)中心，功耗也更低。

“買的越多，省的越多（The more you buy, the more you save）?！秉S仁勛說道。

編輯：芯智訊-浪客劍

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

AI性能突破1Eflop！英偉達DGX GH200發(fā)布：256個GH200芯片，144TB共享內(nèi)存！

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

AI性能突破1Eflop！英偉達DGX GH200發(fā)布：256個GH200芯片，144TB共享內(nèi)存！

相關(guān)推薦

技術(shù)專區(qū)

AI性能突破1Eflop！英偉達DGX GH200發(fā)布：256個GH200芯片，144TB共享內(nèi)存！