馬斯克燒幾十億美元造最大超算中心,10萬塊H100訓(xùn)練Grok追趕GPT-4o

編輯:?jiǎn)虠?nbsp;好困【導(dǎo)讀】最近,許久沒有新動(dòng)向的馬斯克放出了大消息——他旗下的人工智能初創(chuàng)公司xAI將投入巨資建造一個(gè)超算中心,以保證Grok 2及之后版本的訓(xùn)練。這個(gè)「超級(jí)計(jì)算工廠」預(yù)計(jì)于2025年秋季建成,規(guī)模將達(dá)到目前最大GPU集群的四倍。
前段時(shí)間,OpenAI、谷歌、微軟相繼開大會(huì),AI圈子的競(jìng)爭(zhēng)如火如荼。這么熱鬧的時(shí)候,怎么能少得了馬斯克。前段時(shí)間忙著特斯拉和星鏈的他,最近好像開始騰出手,而且不鳴則已、一鳴驚人,直接放出一個(gè)大消息——自己要造世界上最大的超算中心。今年3月,他旗下的xAI發(fā)布了最新版的Grok 1.5,此后一直有關(guān)于Grok 2即將面世的傳說,但卻遲遲沒有官方消息。
目前最大GPU集群
這個(gè)「超級(jí)計(jì)算工廠」一旦完工,規(guī)模將至少是當(dāng)前最大GPU集群的4倍。比如Meta官網(wǎng)在3月發(fā)布的數(shù)據(jù)顯示,他們當(dāng)時(shí)推出了2個(gè)包含2.4萬個(gè)H100 GPU的集群用于Llama 3的訓(xùn)練。英偉達(dá)會(huì)每一年更新一代產(chǎn)品,而如果你想等我的下一個(gè)產(chǎn)品,那么你就丟失了訓(xùn)練的時(shí)間和先發(fā)優(yōu)勢(shì)。下一個(gè)達(dá)到里程碑的公司會(huì)宣布一個(gè)突破性的AI,而接下來的第二名只在它上面提升0.3%。你要選擇做哪一種?這就是為什么一直做技術(shù)領(lǐng)先的公司很重要,你的客戶會(huì)在你上面建設(shè)并且相信你會(huì)一直領(lǐng)先。這里面時(shí)間很重要。這就是為什么我的客戶現(xiàn)在依然瘋狂的在建設(shè)Hopper系統(tǒng)。時(shí)間就是一切。下一個(gè)里程碑馬上就來。然而,即使一切順利,「超級(jí)計(jì)算工廠」在馬斯克的「?jìng)€(gè)人負(fù)責(zé)」下按時(shí)交付,這個(gè)集群到了明年秋天是否仍然有規(guī)模優(yōu)勢(shì),也是一個(gè)未知數(shù)。扎克伯格今年1月曾經(jīng)在Instagram上發(fā)帖,稱Meta到今年底將再部署35萬個(gè)H100,加上之前的算力總共相當(dāng)于60萬個(gè)H100,但他并未提及單個(gè)集群的芯片數(shù)量。
芯片短缺,電也不夠
馬斯克在談到特斯拉的算力問題時(shí)也補(bǔ)充說,雖然迄今為止芯片短缺是AI發(fā)展的一大制約因素,但電力供應(yīng)在未來一兩年將至關(guān)重要,甚至?xí)〈酒蔀樽畲蟮南拗埔蛩亍?/span>包括新建的這家「超級(jí)計(jì)算工廠」的選址,最需要考慮的因素也是電力供應(yīng)。一個(gè)擁有10萬GPU的數(shù)據(jù)中心可能需要100兆瓦的專用電力。要提供這種量級(jí)的電力,xAI總部辦公室所在的舊金山灣區(qū)顯然不是理想的選擇。為了降低成本,數(shù)據(jù)中心往往建在電力更便宜且供應(yīng)更充足的偏遠(yuǎn)地區(qū)。例如,微軟和OpenAI除了計(jì)劃那個(gè)耗資千億美元的超算,也正在威斯康星州建造大型數(shù)據(jù)中心,建設(shè)成本約為100億美元;亞馬遜云服務(wù)的數(shù)據(jù)中心則選址在亞利桑那州。「超級(jí)計(jì)算工廠」一個(gè)非??赡艿倪x址,是特斯拉總部,德克薩斯州奧斯汀市。去年特斯拉宣布建造的Dojo就部署在了這里。這臺(tái)超算基于定制芯片,幫助訓(xùn)練AI自動(dòng)駕駛軟件,也可以用于向外界提供云服務(wù)。第一臺(tái)Dojo運(yùn)行在1萬個(gè)GPU上,建造成本約為3億美元。馬斯克4月表示,特斯拉目前共有3.5萬個(gè)GPU用于訓(xùn)練自動(dòng)駕駛系統(tǒng)。*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。