數(shù)據(jù)中心重新布線能否使 AI 速度提高 6 倍?
在過去,網(wǎng)絡(luò)就是連接少量本地計(jì)算機(jī)。但時(shí)代已經(jīng)變了。在 AI 主導(dǎo)的世界中,訣竅是協(xié)調(diào)數(shù)以萬計(jì)的服務(wù)器的活動(dòng)來訓(xùn)練大型語言模型,而不會(huì)延遲通信。現(xiàn)在有一個(gè)經(jīng)過優(yōu)化的架構(gòu)來做到這一點(diǎn)。Cornelis Networks 表示,其 CN500 網(wǎng)絡(luò)結(jié)構(gòu)最大限度地提高了 AI 性能,支持多達(dá) 500,000 臺(tái)計(jì)算機(jī)或處理器的部署(比現(xiàn)在高出一個(gè)數(shù)量級(jí)),并且不會(huì)增加延遲。
本文引用地址:http://www.2s4d.com/article/202506/471580.htm這項(xiàng)新技術(shù)為網(wǎng)絡(luò)世界帶來了第三個(gè)主要產(chǎn)品,即以太網(wǎng)和 InfiniBand。它旨在使 AI 和高性能計(jì)算機(jī)(HPC 或超級(jí)計(jì)算機(jī))能夠以更高的效率實(shí)現(xiàn)更快、更可預(yù)測(cè)的完成時(shí)間。對(duì)于 HPC,Cornelis 聲稱其技術(shù)的性能優(yōu)于 InfiniBand NDR(2022 年推出的版本),每秒傳遞的消息數(shù)量是 InfiniBand 的兩倍,延遲減少了 35%。對(duì)于 AI 應(yīng)用程序,與基于以太網(wǎng)的協(xié)議相比,它的通信速度提高了 6 倍。
長(zhǎng)期以來,以太網(wǎng)一直是局域網(wǎng) (LAN) 的代名詞。軟件補(bǔ)丁使其通信協(xié)議經(jīng)得起時(shí)間的考驗(yàn)。InfiniBand 的發(fā)明是一項(xiàng)改進(jìn),但它的設(shè)計(jì)目標(biāo)仍然相同:連接少量本地設(shè)備。“當(dāng)這些技術(shù)被發(fā)明出來時(shí),它們與并行計(jì)算無關(guān),”總部位于賓夕法尼亞州的 Cornelis 的聯(lián)合創(chuàng)始人、總裁兼首席運(yùn)營官 Philip Murphy 說。
當(dāng)數(shù)據(jù)中心開始涌現(xiàn)時(shí),工程師需要一種新的網(wǎng)絡(luò)解決方案。由于不同的系統(tǒng)使用不同的軟件,因此無法共享資源,因此擴(kuò)展以太網(wǎng)和 InfiniBand 等設(shè)備以適應(yīng)最繁忙的運(yùn)營時(shí)段被證明是具有挑戰(zhàn)性的?!斑@激發(fā)了整個(gè)云的發(fā)展,”Murphy 說。在不同的計(jì)算機(jī)甚至不同的組織之間共享基于云的 CPU 成為當(dāng)今的解決方案。
但是,當(dāng)數(shù)據(jù)中心先驅(qū)試圖最大限度地增加在一臺(tái)服務(wù)器上運(yùn)行的應(yīng)用程序數(shù)量時(shí),Murphy 和他的同事們看到了相反方法的價(jià)值:最大限度地增加在一個(gè)應(yīng)用程序上運(yùn)行的處理器數(shù)量?!斑@需要一種完全不同的網(wǎng)絡(luò)解決方案,”他說,而這正是 Cornelis 現(xiàn)在提供的。該公司的 Omni-Path 架構(gòu)由 Intel 開發(fā),用于超級(jí)計(jì)算應(yīng)用,例如模擬氣候模型或藥物設(shè)計(jì)的分子相互作用,可提供最大的吞吐量和零數(shù)據(jù)包丟失。
無擁堵數(shù)據(jù)高速公路
協(xié)調(diào)處理器以訓(xùn)練 AI 模型需要以非常高的帶寬交換許多消息(數(shù)據(jù)包)。每毫秒的消息速率很重要,延遲也很重要,即收件人需要多長(zhǎng)時(shí)間才能響應(yīng)。
在整個(gè)網(wǎng)絡(luò)中共享如此多的數(shù)據(jù)包的一個(gè)主要挑戰(zhàn)是流量擁塞。Murphy 解釋說,您需要一種方法來可靠地繞過擁塞點(diǎn)路由數(shù)據(jù)包,而不會(huì)產(chǎn)生其他問題。例如,如果數(shù)據(jù)包通過不同的路由到達(dá)同一目的地,則它們可能會(huì)無序到達(dá)。
Cornelis 的動(dòng)態(tài)自適應(yīng)路由算法通過圍繞短期擁塞事件進(jìn)行路由來緩解擁塞,而其擁塞控制架構(gòu)則圍繞“熱門”目的地路由流量?!叭绻粋€(gè)體育場(chǎng)有我們都想去的活動(dòng),你不希望經(jīng)過體育場(chǎng)的交通也被堵在那里,”Murphy 說。中央起搏技術(shù)實(shí)現(xiàn)了這種擁塞控制架構(gòu)。交換機(jī)可以看到流量形成的位置,然后告訴發(fā)送者放慢速度,直到擁塞消散?!翱紤]在進(jìn)入高速公路匝道時(shí)緩解交通,”Murphy 解釋說。
另一個(gè)挑戰(zhàn)是避免延遲。在傳統(tǒng)的以太網(wǎng)架構(gòu)中,發(fā)送數(shù)據(jù)包需要在端點(diǎn)有足夠的內(nèi)存?!叭绻野l(fā)送給您,但您的內(nèi)存耗盡了,您必須回來告訴我,”Murphy 說。這是一個(gè)很長(zhǎng)的循環(huán),需要不可擴(kuò)展的大型緩沖區(qū)。相反,Cornelis 使用一種稱為基于信用的流控制的算法,該算法會(huì)提前分配內(nèi)存。“你不需要告訴我任何事情,我就會(huì)知道我還能寄多少錢,”Murphy 說。
最后,如果 GPU 或鏈路發(fā)生故障,系統(tǒng)可以避免陷入停頓。在傳統(tǒng)架構(gòu)中,如果服務(wù)器宕機(jī),應(yīng)用程序也會(huì)宕機(jī)。修復(fù)它需要從最新的檢查點(diǎn)重新啟動(dòng),而該檢查點(diǎn)本身需要大量的計(jì)算能力來創(chuàng)建?!跋胂笠幌拢绻看卧谖臋n上點(diǎn)擊'保存'時(shí),都必須等待 20 分鐘,”Murphy 說。相反,由于 Cornelis Networks 分布在多臺(tái)計(jì)算機(jī)上,因此它可以保持應(yīng)用程序運(yùn)行,盡管帶寬略低,直到可以替換故障鏈路,而無需檢查點(diǎn)。
高效的 AI
從物理上講,CN5000 產(chǎn)品是圍繞定制芯片構(gòu)建的網(wǎng)卡。網(wǎng)卡插入每臺(tái)服務(wù)器,“就像將以太網(wǎng)卡插入家中的 PC 一樣,”Murphy 解釋說。架頂式交換機(jī)通過電纜連接到每臺(tái)服務(wù)器和其他交換機(jī),而控制器級(jí)交換機(jī)則帶有 48 或 576 個(gè)端口,用于連接到機(jī)架式交換機(jī)?!懊颗_(tái)服務(wù)器都插入了卡,因此您可以構(gòu)建數(shù)千個(gè)終端節(jié)點(diǎn)集群,”Murphy 說。
該公司的主要市場(chǎng)是希望升級(jí)到新集群以實(shí)現(xiàn) AI 或更快 HPC 模擬的組織。這是通過 Cornelis 合作的三家原始設(shè)備制造商之一完成的,這些制造商制造服務(wù)器和網(wǎng)絡(luò)交換機(jī)。OEM 從 Cornelis 購買實(shí)體卡,并在完成訂單之前將其插入服務(wù)器。
直到最近,訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型還是一次性的。但現(xiàn)在,訓(xùn)練數(shù)萬億個(gè)參數(shù)的 AI 模型意味著反復(fù)微調(diào)或更新。Cornelis 希望利用這一點(diǎn)?!叭绻悴徊捎?AI,你就會(huì)倒閉。如果你使用 AI 效率低下,你仍然會(huì)倒閉,“Murphy 說。“我們的客戶希望以盡可能最有效的方式采用 AI。”
評(píng)論