DeepSeek的下一代模型因Nvidia GPU對中國的出口限制而推遲
據(jù) The Information 報道,DeepSeek 今年早些時候的 R1 AI 模型吸引了大量關(guān)注,但由于 Nvidia 的 H20 處理器在中國短缺,下一代 R2 模型的開發(fā)似乎已經(jīng)停滯不前。DeepSeek 本身尚未對其 R2 模型何時可用發(fā)表評論。
本文引用地址:http://www.2s4d.com/article/202506/471777.htmDeepSeek 使用由 50000 個 Hopper GPU 組成的集群(包括 30000 個 H20、10000 個 H800 和 10000 個 H100),該 GPU 由其投資者 High-Flyer Capital Management 獲得,用于訓練其 R1 模型。目前尚不清楚 R2 是否已經(jīng)完全預(yù)訓練。The Information 報道援引兩位熟悉該項目的人士的話說,DeepSeek 團隊一直在深入研究該模型,但首席執(zhí)行官梁文峰對其能力仍不滿意。在批準模型進行部署之前,內(nèi)部工作將繼續(xù)進行以提高性能。
R1 迅速被廣泛地采用,包括私營初創(chuàng)公司、大公司和政府附屬團體。這些用戶中的大多數(shù)在 Nvidia 的 H20 處理器上運行該模型。根據(jù) The Information 報告,現(xiàn)在 H20 的發(fā)貨受到限制,它已經(jīng)造成了問題,限制了 R1 今天的使用方式,并使為 R2 的推出做準備變得更加困難。
據(jù) The Information 援引 DeepSeek 公司的員工稱,如果 DeepSeek 即將推出的 R2 模型的能力超過目前可用的開放替代方案,預(yù)計使用量將激增,超出中國云平臺的處理能力。據(jù)說大多數(shù)依賴早期 R1 模型的組織都使用 Nvidia 的 H20 處理器來作它,而這些處理器現(xiàn)在供不應(yīng)求。
美國政府在 4 月中旬限制了 Nvidia 用于 AI 訓練和推理的 H20 處理器的銷售。雖然該單元是流行的 H100 GPU 的嚴重縮減版本,但由于中國人工智能公司依賴 Nvidia 的 CUDA 軟件堆棧,H20 在中華人民共和國的此類實體中是一個非常受歡迎的產(chǎn)品,Nvidia 每個季度銷售價值數(shù)十億美元的 H20 處理器。
據(jù)報道,DeepSeek 的 AI 軟件針對 Nvidia 的硬件進行了優(yōu)化,這使得該公司特別容易受到美國政策決策的影響。盡管該公司聲稱開發(fā)其模型使用的資源遠少于 OpenAI 等美國公司,但最近的出口限制凸顯了一個關(guān)鍵的弱點:中國的頂級 AI 公司仍然嚴重依賴美國硬件。與此同時,OpenAI 非正式地指責 DeepSeek 在 R1 開發(fā)過程中使用了其專有模型,盡管該公司尚未公開回應(yīng)這些說法。
評論