新版DeepSeek V3悄然發(fā)布 外媒:很強但少了"人味"
3月25日消息,中國人工智能初創(chuàng)公司DeepSeek悄然發(fā)布了一款新的大語言模型,在人工智能行業(yè)引發(fā)震動。這不僅因為其強大的能力,還因為其獨特的發(fā)布方式。
本文引用地址:http://www.2s4d.com/article/202503/468620.htm這個大小為641GB的模型名為DeepSeek-V3-0324,于周一悄然出現(xiàn)在人工智能資源庫Hugging Face上,幾乎沒有任何官方公告,延續(xù)了該公司低調(diào)卻影響深遠的發(fā)布風格。
此次發(fā)布尤其值得關(guān)注的是,該模型采用MIT許可(允許免費商用),并且有報道稱它可以直接在消費者級“硬件”上運行,尤其是配備M3 Ultra芯片的蘋果Mac Studio。
人工智能研究員Awni Hannun在社交媒體上寫道:“4比特量化的新版DeepSeek-V3-0324,在512GB M3 Ultra的機器上通過mlx-lm實現(xiàn)了每秒20個token的處理速度!”雖然售價為9499美元的Mac Studio可能超出了“消費者硬件”的定義,但能夠在這樣的硬件上本地運行如此龐大的模型,標志著與通常與最先進人工智能技術(shù)相關(guān)的數(shù)據(jù)中心需求有了根本性突破。
DeepSeek隱秘發(fā)布策略打破AI市場預(yù)期
這個擁有6850億參數(shù)的模型發(fā)布時沒有附帶技術(shù)白皮書、博客文章或營銷推廣,只有一個空白的README文件和模型權(quán)重。這種做法與西方人工智能公司通常精心策劃的產(chǎn)品發(fā)布形成鮮明對比,后者往往在發(fā)布前數(shù)月便開始進行炒作。
早期測試者報告稱,相比于前一版本,DeepSeek-V3-0324在各項指標上有了顯著提升。人工智能研究員Xeophon在社交媒體上發(fā)帖高調(diào)宣稱:“我在內(nèi)部基準測試平臺上測試了新版DeepSeek V3,在所有測試中,它在各項指標上都有巨大的躍升。它現(xiàn)在是最好的非推理模型,把Sonnet 3.5拉下王座。”
如果這一說法得到更廣泛的驗證,DeepSeek的新模型將在性能排行榜上壓制Anthropic的Claude Sonnet 3.5,后者是業(yè)內(nèi)公認頂尖的商業(yè)人工智能系統(tǒng)之一。而且與需要訂閱的Sonnet不同,DeepSeek-V3-0324的權(quán)重文件供任何人免費下載使用。
DeepSeek V3-0324的突破性架構(gòu)如何實現(xiàn)無與倫比的效率
DeepSeek-V3-0324采用了混合專家(MoE)架構(gòu),從根本上重新構(gòu)想了大語言模型的運作方式。傳統(tǒng)模型會在每項任務(wù)中激活全部參數(shù),而DeepSeek的方法是在特定任務(wù)中只激活約370億個參數(shù),盡管它擁有6850億個參數(shù)。
這種選擇性激活代表了模型效率的范式轉(zhuǎn)變。通過僅激活與每個特定任務(wù)最相關(guān)的“專家”參數(shù),DeepSeek能夠在大幅減少計算需求的同時,提供與更大、完全激活的模型相當?shù)男阅堋?/p>
該模型還融入了兩項突破性技術(shù):多頭潛在注意力(MLA)和多token預(yù)測(MTP)。MLA增強了模型在處理長文本時保持上下文的能力,而MTP則可以每個步驟生成多個token,而非傳統(tǒng)的逐標記生成方式。兩者結(jié)合使得輸出速度提高了近80%。
開發(fā)工具創(chuàng)造者西蒙·威利森(Simon Willison)在博客中指出,4比特量化版本的DeepSeek-V3將存儲占用減少到352GB,這使得在像Mac Studio(配備M3 Ultra芯片)這樣的高端消費者硬件上運行成為可能。
這代表了人工智能技術(shù)部署方式的潛在重大轉(zhuǎn)變。傳統(tǒng)人工智能基礎(chǔ)設(shè)施通常依賴于多塊英偉達GPU,消耗數(shù)千瓦的電力,而Mac Studio在推理過程中僅消耗不到200瓦的電力。這一效率差距表明,人工智能行業(yè)可能需要重新審視關(guān)于頂尖模型性能所需基礎(chǔ)設(shè)施的假設(shè)。
中國的開源AI革命挑戰(zhàn)硅谷的“封閉花園”模式
DeepSeek的發(fā)布策略體現(xiàn)了中西方公司在人工智能商業(yè)理念上的根本分歧。像OpenAI和Anthropic這樣的美國領(lǐng)軍公司將他們的模型封閉在付費墻后,而中國人工智能公司則越來越多地采納寬松的開源許可。
這種做法正在迅速改變中國的人工智能生態(tài)系統(tǒng)。尖端模型的開源產(chǎn)生了乘數(shù)效應(yīng),使得初創(chuàng)公司、研究人員和開發(fā)人員能夠在沒有巨額資本支出的情況下,基于復(fù)雜的人工智能技術(shù)進行構(gòu)建。這加速了中國人工智能能力的提升,令西方觀察者感到震驚。
這一策略背后的商業(yè)邏輯反映了中國市場的現(xiàn)實。在眾多資金雄厚的競爭對手存在的情況下,當競爭者免費提供類似能力時,保持專有模型變得越來越困難。開源通過生態(tài)系統(tǒng)領(lǐng)導(dǎo)地位、API服務(wù)和基于免費可用基礎(chǔ)模型構(gòu)建的企業(yè)解決方案創(chuàng)造了替代的價值路徑。
即便是中國的科技巨頭也認識到這一轉(zhuǎn)變。百度宣布計劃在6月前將其文心一言4.5系列模型開源,而阿里巴巴和騰訊也發(fā)布了具有專業(yè)能力的開源人工智能模型。這一舉措與西方公司依賴API的策略形成了鮮明對比。
開源策略還解決了中國人工智能公司面臨的獨特挑戰(zhàn)。在獲取尖端英偉達芯片受限的情況下,中國公司更加強調(diào)效率和優(yōu)化,以在有限的計算資源下實現(xiàn)競爭性性能。這種由需求驅(qū)動的創(chuàng)新現(xiàn)在已成為潛在的競爭優(yōu)勢。
DeepSeek V3-0324:AI推理革新的基礎(chǔ)
DeepSeek-V3-0324的發(fā)布時機和特點強烈表明,DeepSeek預(yù)計將在未來兩個月內(nèi)發(fā)布的改進型推理專用模型DeepSeek-R2。這符合DeepSeek的慣常模式,即基礎(chǔ)模型發(fā)布數(shù)周后推出專用推理模型。
Reddit用戶mxforest指出:“這與他們在圣誕節(jié)前后發(fā)布V3,幾周后推出R1的模式一致。傳聞R2將在4月發(fā)布,所以這可能就是它。”
推理模型的開源再怎么強調(diào)都不為過。目前,像OpenAI的o1和DeepSeek的R1這樣的推理模型代表了人工智能能力的最前沿,在數(shù)學、編程等領(lǐng)域展現(xiàn)了前所未有的問題解決能力。將這項技術(shù)免費開放,會使目前只有擁有雄厚資金支持的公司才能使用的人工智能系統(tǒng)普及化。
潛在的R2模型發(fā)布之際,關(guān)于推理模型計算需求的重要發(fā)現(xiàn)正在浮現(xiàn)。英偉達首席執(zhí)行官黃仁勛最近指出,DeepSeek的R1模型“消耗的計算量是非推理人工智能系統(tǒng)的100倍”,這與之前業(yè)內(nèi)對效率的假設(shè)相矛盾。這揭示了DeepSeek模型背后取得的非凡成就,它們在資源限制更大的情況下依然能夠提供競爭力的表現(xiàn)。
如果DeepSeek-R2繼續(xù)沿著R1設(shè)定的軌跡發(fā)展,它可能會直接挑戰(zhàn)GPT-5,即OpenAI的下一代旗艦?zāi)P停笳哳A(yù)計將在不久后發(fā)布。OpenAI封閉、資金密集型的方法與DeepSeek開放、資源高效的戰(zhàn)略之間,代表了人工智能領(lǐng)域兩種相互競爭的未來愿景。
如何體驗DeepSeek V3-0324:開發(fā)者和用戶的完整指南
對于那些急于體驗DeepSeek-V3-0324的人,根據(jù)技術(shù)需求和資源的不同,可以選擇多種途徑。完整的模型權(quán)重已在Hugging Face上發(fā)布,641GB的大小需要充足的存儲空間和計算資源。
對于大多數(shù)用戶而言,基于云的選項提供了最易接入的入口。OpenRouter提供免費API訪問該模型,并且配有用戶友好的聊天界面。只需選擇DeepSeek V3 0324作為模型即可開始體驗。
DeepSeek自己的聊天界面chat.deepseek.com也很可能已經(jīng)更新為新版本,盡管公司尚未明確確認。早期用戶反饋稱,新的版本在該平臺上可用,且性能較此前版本有所提升。
希望將模型集成到應(yīng)用程序中的開發(fā)者,也可以通過各種推理提供商訪問它。Hyperbolic Labs宣布成為“在Hugging Face平臺上首家提供該模型服務(wù)的推理提供商”提供該模型,而OpenRouter則提供與OpenAI SDK兼容的API訪問。
DeepSeek的新模型更注重技術(shù)精確性而非對話親和力
早期用戶報告稱,DeepSeek模型的交流風格發(fā)生了明顯變化。盡管之前的模型因其對話式、擬人化的語氣備受好評,但DeepSeek V3-0324呈現(xiàn)出更加正式、技術(shù)導(dǎo)向的風格。
Reddit用戶nother_level問道:“是只有我覺得這個版本不那么像人類了嗎?對我來說,DeepSeek V3與其他模型不同的地方在于它更像人類。它的語氣、措辭都不像其他大語言模型那樣機械感,但現(xiàn)在這個版本感覺像其他大語言模型一樣機械得要命?!?/p>
另一位用戶AppearanceHeavy6724補充道:“沒錯,它肯定失去了那種超然的魅力,感覺聰明反被聰明誤?!?/p>
這種明顯的風格變化似乎是DeepSeek工程師的有意設(shè)計。轉(zhuǎn)向更精準、分析式的交流風格,表明該公司正將模型重新定位至專業(yè)和技術(shù)應(yīng)用,而非休閑對話的戰(zhàn)略。這與人工智能行業(yè)的廣泛趨勢一致,開發(fā)者越來越認識到,不同的使用場景需要不同的互動風格。
對開發(fā)專業(yè)應(yīng)用的開發(fā)者而言,這種更精準的交流風格反而成為優(yōu)勢,能為工作流程提供更清晰一致的輸出;但會削弱模型在需親和力的消費端應(yīng)用中的吸引力。
DeepSeek的開源戰(zhàn)略如何重塑全球AI版圖
DeepSeek的人工智能技術(shù)開發(fā)和分發(fā)方法不僅是一項技術(shù)成就,也體現(xiàn)了關(guān)于先進技術(shù)應(yīng)如何在社會中傳播的根本不同愿景。通過提供開放許可的尖端人工智能模型,DeepSeek推動了一個傳統(tǒng)閉源模型無法比擬的指數(shù)級創(chuàng)新。這一戰(zhàn)略正在快速縮小中國和美國在人工智能領(lǐng)域的差距。幾個月前,大多數(shù)分析師都認為中國落后美國一到兩年,而如今這一差距已縮小至3至6個月,部分領(lǐng)域接近持平甚至中國領(lǐng)先。
這種開源部署理念與安卓對移動生態(tài)系統(tǒng)的影響頗為相似。通過免費提供安卓系統(tǒng),谷歌創(chuàng)建了一個平臺,最終實現(xiàn)了全球市場的主導(dǎo)地位。同樣,開源人工智能模型也有可能憑借廣泛普及和開發(fā)者集體創(chuàng)新,在競爭中超越閉源系統(tǒng)。
這一影響超越了市場競爭,直指技術(shù)獲取的根本問題。西方AI巨頭因?qū)⑾冗M能力集中在資源充足的公司與個人手中而備受批評,而DeepSeek的開放戰(zhàn)略讓能力廣泛分布,可能加速全球AI應(yīng)用。
隨著DeepSeek-V3-0324進入全球研究實驗室和開發(fā)者工作站,競爭已不再僅僅是關(guān)于構(gòu)建最強大的人工智能,而是關(guān)于讓更多人能夠利用人工智能進行創(chuàng)造。在這場競賽中,DeepSeek的低調(diào)發(fā)布已充分預(yù)示了人工智能的未來。最自由分享技術(shù)的公司,或?qū)⒆罱K主導(dǎo)AI重塑世界的進程。
評論