杰米·戴蒙如何成為山姆·奧特曼最大的競(jìng)爭(zhēng)對(duì)手

作者：時(shí)間：2025-08-05 來(lái)源：

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

去年 11 月，我們認(rèn)為摩根大通首席執(zhí)行官杰米·戴蒙（Jamie Dimon）坐擁著一個(gè)獨(dú)特?cái)?shù)據(jù)的寶庫(kù)，這些數(shù)據(jù)永遠(yuǎn)不會(huì)通過(guò)互聯(lián)網(wǎng)進(jìn)入專有的大型語(yǔ)言模型。因此，他是 OpenAI 首席執(zhí)行官 Sam Altman 的最大競(jìng)爭(zhēng)對(duì)手，因?yàn)樗臄?shù)據(jù)比這些法學(xué)碩士的民主化見(jiàn)解更有價(jià)值。

我們的前提是，基金會(huì)模型公司正在展開(kāi)一場(chǎng)自相殘殺的戰(zhàn)斗，追逐通用人工智能（“彌賽亞 AGI”），而真正的圣杯是我們所說(shuō)的“企業(yè) AGI”——這意味著將 AI 應(yīng)用于企業(yè)內(nèi)部的專有數(shù)據(jù)最終將被證明是最有價(jià)值的經(jīng)濟(jì)努力。今天，我們擴(kuò)展了這一論點(diǎn)，并假設(shè)由專有數(shù)據(jù)提供支持的代理和企業(yè)數(shù)字孿生將推動(dòng)下一波人工智能價(jià)值。

在上一集“杰米·戴蒙”中，我們?yōu)樵蛟O(shè)定了一個(gè)框架。在本突破性分析中，我們解釋了摩根大通等企業(yè)將如何以前沿模型供應(yīng)商無(wú)法做到的方式推動(dòng)價(jià)值。我們將檢查我們最初的前提并共享數(shù)據(jù)，這些數(shù)據(jù)進(jìn)一步強(qiáng)化了基礎(chǔ)模型供應(yīng)商面臨的挑戰(zhàn)，使其成為一項(xiàng)艱巨的業(yè)務(wù)。此外，我們將解釋為什么由數(shù)據(jù)編程的代理最終將在未來(lái)幾年為企業(yè)提供最大的價(jià)值釋放。

三波代理

我們將代理進(jìn)化分為三個(gè)不同的波次，如下所示：

消費(fèi)者代理 – GPT-3/4 時(shí)代的 ChatGPT 讓我們第一次嘗到了個(gè)人數(shù)字助理的滋味。GPT-5 可能會(huì)提供第一個(gè)通用的消費(fèi)級(jí)代理，它可以代表用戶行事，而不僅僅是聊天。

編碼代理 – Anthropic 的 Claude 與 Cursor 配對(duì)展示了當(dāng)您使用強(qiáng)化學(xué)習(xí)進(jìn)行后訓(xùn)練到強(qiáng)大的基礎(chǔ)模型并將其瞄準(zhǔn)軟件工程時(shí)會(huì)發(fā)生什么。代碼是一個(gè)很好的試驗(yàn)場(chǎng)，因?yàn)榻Y(jié)果是客觀可測(cè)試的，就像數(shù)學(xué)問(wèn)題一樣。

企業(yè)代理 – 我們相信這是下一個(gè)前沿領(lǐng)域 – 即由業(yè)務(wù)的實(shí)時(shí)數(shù)字孿生提供支持的代理。不是像英偉達(dá)公司的 Omniverse 這樣的工廠等物理事物的數(shù)字孿生，而是企業(yè)。這里的景觀發(fā)生了變化。這不僅僅是更大的模型;我們將解釋新的供應(yīng)商技術(shù)堆棧、新的供應(yīng)商業(yè)務(wù)模式和新的客戶運(yùn)營(yíng)模式。價(jià)值如此之大，以至于即使是杰米·戴蒙（Jamie Dimon）也擁有龐大的資產(chǎn)負(fù)債表和比前沿實(shí)驗(yàn)室所能獲得的有用數(shù)據(jù)多幾個(gè)數(shù)量級(jí)的數(shù)據(jù)，也正在踏上山姆·奧特曼的競(jìng)爭(zhēng)環(huán)境。

有了這個(gè)框架，讓我們來(lái)看看為什么從消費(fèi)者/編碼人員代理到企業(yè)代理的跳躍不是線性推斷，以及杰米·戴蒙（Jamie Dimon）能夠現(xiàn)實(shí)地挑戰(zhàn) OpenAI 的領(lǐng)先地位之前，必須實(shí)現(xiàn)哪些新技術(shù)和組織層。

代理 AI 三個(gè)時(shí)代的附加顏色

我們就此主題提出以下補(bǔ)充意見(jiàn)：

正如我們之前所討論的，戴蒙是企業(yè)及其四面墻內(nèi)擁有的專有數(shù)據(jù)和專有技術(shù)的代理，而前沿法學(xué)碩士無(wú)法在這些數(shù)據(jù)和專業(yè)知識(shí)上進(jìn)行培訓(xùn)。這就是為什么真正的價(jià)值將來(lái)自企業(yè)將這些數(shù)據(jù)和專業(yè)知識(shí)應(yīng)用于擴(kuò)展前沿法學(xué)碩士或類似的模型，我們將解釋原因。

真正的革命是，我們已經(jīng)從預(yù)訓(xùn)練時(shí)代的縮放定律（即 ChatGPT 和類似產(chǎn)品所基于的 GPT 模型）轉(zhuǎn)向后訓(xùn)練時(shí)代，這是我們開(kāi)始使用強(qiáng)化學(xué)習(xí)的地方。強(qiáng)化學(xué)習(xí)是試錯(cuò)學(xué)習(xí)的一個(gè)奇特術(shù)語(yǔ)，對(duì)于試錯(cuò)學(xué)習(xí)，你必須能夠從錯(cuò)誤中吸取教訓(xùn)。

它首先在軟件工程代理中工作，因?yàn)榇a提供即時(shí)、客觀的反饋：

您可以運(yùn)行測(cè)試并查看它是否有效 - 您可以編譯它。
它適合程序員的工作流程，無(wú)需進(jìn)行重大更改。

因此，這就是企業(yè)中代理首先起飛的地方。然后我們的論點(diǎn)是，要超越這一點(diǎn)，我們將需要一種新型技術(shù)平臺(tái)——企業(yè)數(shù)字孿生。

為了從中獲得真正的價(jià)值，我們將不得不采用一種新的——不僅僅是在數(shù)據(jù)所在的基礎(chǔ)上采用新技術(shù)模型——而是一種新的運(yùn)營(yíng)模式，在這種模式下，公司必須圍繞端到端的結(jié)果進(jìn)行組織，例如吸引新客戶，而不是部門或職能專業(yè)化。

供應(yīng)商影響：

供應(yīng)商必須提供端到端的以流程為中心的數(shù)據(jù)平臺(tái)或數(shù)字孿生。這不是傳統(tǒng)的數(shù)據(jù)平臺(tái)或孤立的應(yīng)用程序。
看來(lái)我們需要開(kāi)放的模型來(lái)使這種試錯(cuò)學(xué)習(xí)正常工作，而這與前沿模型供應(yīng)商的商業(yè)模式不相容。

因此，我們將需要進(jìn)行大量更改。而要點(diǎn)是，與今天 ChatGPT 創(chuàng)造和獲取價(jià)值的時(shí)代相比，杰米·戴蒙（作為領(lǐng)先企業(yè)的代表）和他將要從這個(gè)人工智能時(shí)代中提取的價(jià)值將需要完全不同的腳手架和商業(yè)模式集，就像他這樣的客戶，以及為他提供服務(wù)的供應(yīng)商。

簡(jiǎn)而言之，我們相信這種轉(zhuǎn)變——從訓(xùn)練前規(guī)模到訓(xùn)練后技能，從孤立的工作流程到以結(jié)果為中心的孿生——為企業(yè)人工智能的未來(lái)十年奠定了競(jìng)爭(zhēng)格局。

第 1 波：消費(fèi)者代理

讓我們更深入地研究第一波

GPT3.5 上的 ChatGPT 開(kāi)始了這一切。但 GPT-5 是我們認(rèn)為 ChatGPT 作為通用消費(fèi)者代理的真正價(jià)值開(kāi)始的地方。OpenAI 自己的收入預(yù)測(cè)（下面的紅虛線）將從 2024 年的低單十億美元攀升至 2027 年的 500 億>美元——許多人認(rèn)為這條增長(zhǎng)曲線威脅到谷歌搜索——我們將拭目以待。

上面的紅色標(biāo)注很有啟發(fā)性，因?yàn)樵?GPT-5 級(jí)代理從很酷的演示轉(zhuǎn)變?yōu)楸貍涞膫€(gè)人助理之前，必須進(jìn)行警告、技術(shù)重新布線和商業(yè)模式更改。具體說(shuō)來(lái)：

三十年前，投資者將商業(yè)互聯(lián)網(wǎng)譽(yù)為歷史上最偉大的合法財(cái)富創(chuàng)造。今天，我們聽(tīng)到同樣宏偉的聲明，即生成式人工智能超越了火、車輪和電力。GPT-5 可能會(huì)證明這種夸張的很大一部分是合理的。通過(guò)統(tǒng)一多模態(tài)推理——語(yǔ)音、視頻、工具使用、研究、代碼執(zhí)行——OpenAI 準(zhǔn)備推出第一個(gè)真正的全棧消費(fèi)者代理，這是任何歷史標(biāo)準(zhǔn)的重磅產(chǎn)品。

但從頭條新聞到習(xí)慣的飛躍需要多個(gè)方面的劇變：

技術(shù)基礎(chǔ)設(shè)施

網(wǎng)絡(luò)是為人類而構(gòu)建的;爬蟲(chóng)只是索引頁(yè)面，以便人們可以閱讀它們。我們需要一個(gè)重新連接的 Web，以實(shí)現(xiàn)自主導(dǎo)航、微交易、新的安全軌道和代理友好的支付流程。
關(guān)于每篇文章小額支付的提案正在出現(xiàn)，以便代理商可以合法地實(shí)時(shí)攝取優(yōu)質(zhì)內(nèi)容。然而，美國(guó)的公共政策似乎出于競(jìng)爭(zhēng)原因（例如中國(guó)）而削減了這些提議。

商業(yè)模式重新布線

發(fā)布者必須從搜索引擎優(yōu)化轉(zhuǎn)向代理引擎優(yōu)化。
電子商務(wù)目錄必須公開(kāi)代理（而不是眼球）可以解析和作的元數(shù)據(jù)。
營(yíng)銷從影響人類購(gòu)物者轉(zhuǎn)變?yōu)橛绊懜鶕?jù)政策和偏好規(guī)則篩選選項(xiàng)的機(jī)器人。

歷史先例

在 1990 年代后期，熱情領(lǐng)先于寬帶建設(shè)和可行的收入模式;人工智能在承諾和基礎(chǔ)之間也面臨著類似的差距。

標(biāo)題是 GPT-5 可以引發(fā)消費(fèi)者的大規(guī)模采用，但廣泛的價(jià)值捕獲取決于重新管道網(wǎng)絡(luò)和重新貨幣化內(nèi)容。這還沒(méi)有解決企業(yè)部署特有的額外障礙，這些障礙具有自己的技術(shù)、治理和運(yùn)營(yíng)模式需求。

法學(xué)碩士的經(jīng)濟(jì)學(xué)是殘酷的

在我們對(duì) GPT-5 過(guò)于興奮之前，讓我們先看看殘酷的規(guī)模經(jīng)濟(jì)學(xué)。下面的數(shù)據(jù)講述了一個(gè)大故事。

右上圖：那條“縮放律”線（X 軸上用于預(yù)訓(xùn)練的計(jì)算 petaflops 對(duì)數(shù)，Y 軸上測(cè)試損失對(duì)數(shù)，這是一種描述準(zhǔn)確性和識(shí)別更精細(xì)模式的能力的奇特方式）穩(wěn)步向下移動(dòng)——但每一英寸的改進(jìn)都需要計(jì)算的 PF 日（petaflop-days）數(shù)量級(jí)跳躍。

讓我們來(lái)解開(kāi)上述數(shù)字的來(lái)源。

在上面的幻燈片上，左軸顯示了每代的估計(jì)訓(xùn)練成本;右軸繪制相應(yīng)的測(cè)試損耗改進(jìn)。GPT-3 級(jí)模型的 3500 萬(wàn)美元大關(guān)是共同的參考點(diǎn)。每一代都需要大約 10 倍到 30 倍的訓(xùn)練 FLOP 增加，但在算法和硬件效率提高之后，總現(xiàn)金支出仍然在每個(gè)周期增長(zhǎng)約 5 到 10 倍。數(shù)字通?？雌饋?lái)較小，因?yàn)樗鼈冎挥涗浟俗詈髢扇齻€(gè)月的生產(chǎn)運(yùn)行。這解釋了 DeepSeek 報(bào)告的 600 萬(wàn)美元成本的混亂;該圖省略了研究運(yùn)行、數(shù)據(jù)消融實(shí)驗(yàn)和重啟，這些實(shí)驗(yàn)甚至在最后一次開(kāi)始之前就消耗了三到十倍的計(jì)算量。

幻燈片的曲線使第二個(gè)點(diǎn)變得清晰。每次支出的增加只會(huì)帶來(lái)測(cè)試損失的增量下降——更好的預(yù)測(cè)準(zhǔn)確性、更可靠的答案、更精細(xì)的模式檢測(cè)。僅在預(yù)訓(xùn)練上保持同步，就已經(jīng)將單次下一代運(yùn)行的成本推高至 100 億美元。在那個(gè)水平上，市場(chǎng)無(wú)法維持許多參與者，除非他們?cè)诨灸Ｐ椭咸砑右粋€(gè)高度差異化的層。即將到來(lái)的高質(zhì)量訓(xùn)練數(shù)據(jù)瓶頸和激烈的競(jìng)爭(zhēng)將擠壓原始應(yīng)用程序編程接口訪問(wèn)的任何價(jià)格溢價(jià)的幅度和壽命。

強(qiáng)化學(xué)習(xí)可以通過(guò)開(kāi)辟新的縮放向量來(lái)解決收益遞減定律。推理時(shí)間“推理”開(kāi)辟了擴(kuò)展的另一個(gè)維度。但預(yù)訓(xùn)練基礎(chǔ)仍需不斷推進(jìn)。這意味著在前沿模型層發(fā)揮的資本強(qiáng)度繼續(xù)呈指數(shù)級(jí)增長(zhǎng)。只要終端市場(chǎng)繼續(xù)以類似的速度增長(zhǎng)，攤銷預(yù)培訓(xùn)的經(jīng)濟(jì)性就有效。但是當(dāng)市場(chǎng)增長(zhǎng)放緩時(shí)，當(dāng)音樂(lè)停止時(shí)，預(yù)培訓(xùn)的成本將看起來(lái)像一場(chǎng)音樂(lè)椅游戲。

撞上數(shù)據(jù)墻：數(shù)據(jù)稀缺和合成數(shù)據(jù)挑戰(zhàn)

到目前為止，我們一直關(guān)注計(jì)算成本，但我們需要討論一個(gè)同樣殘酷的限制，那就是我們正在耗盡免費(fèi)、高質(zhì)量的人工文本。

上圖跟蹤了可用互聯(lián)網(wǎng)代幣的“有效存量”（綠色帶）與前沿模型消耗的數(shù)據(jù)集的預(yù)計(jì)大?。ㄋ{(lán)色帶）。這兩條曲線在 2027-28 年左右相遇——這意味著模型改進(jìn)的每一個(gè)額外點(diǎn)都需要新的策略。

不過(guò)，我們應(yīng)該指出，合成數(shù)據(jù)很容易用計(jì)算機(jī)代碼生成，因?yàn)槟梢詫?duì)其進(jìn)行測(cè)試，因此，合成數(shù)據(jù)現(xiàn)在包含更多信號(hào)。它有效嗎？它不起作用嗎？你有各種各樣的測(cè)試，這就是為什么正如我們將看到的，編碼代理首先起飛。但是，正如我們將要展示的那樣，試圖越過(guò)這堵數(shù)據(jù)墻的第一種方法是使用人類生成的推理跟蹤，即您基本上可以讓不同領(lǐng)域的廣泛專家嘗試并詳細(xì)闡述他們的問(wèn)題解決策略，以找到如何解決特定領(lǐng)域問(wèn)題的解決方案，而且這非常昂貴。因此：

模型供應(yīng)商將看到他們用于訓(xùn)練數(shù)據(jù)的銷售成本大幅上升。根據(jù)公共政策的態(tài)勢(shì)，他們可能必須付費(fèi)才能獲得專有發(fā)布者數(shù)據(jù)的許可。正如我們?cè)谧罱膩嗰R遜/紐約時(shí)報(bào)交易中看到的那樣，這些交易已經(jīng)開(kāi)始。這是眾多事件中的第一個(gè)還是高水位線還有待觀察。

更重要的是，模型供應(yīng)商將不得不從更多領(lǐng)域的人類專家那里獲取更復(fù)雜的問(wèn)題集和“推理痕跡”。這就是 Scale.ai 等數(shù)據(jù)供應(yīng)商專門從事采購(gòu)的領(lǐng)域。

Scale AI 的 Alex Wang 表示，下一個(gè)突破取決于人類注釋的思維鏈，而不僅僅是更多抓取的文本散文。在該深度進(jìn)行注釋既昂貴又緩慢。這是下一個(gè)瓶頸。這種類型的數(shù)據(jù)稀缺重塑了預(yù)訓(xùn)練前沿模型的經(jīng)濟(jì)性。據(jù)報(bào)道，這就是為什么 Meta 斥資 ~150 億美元購(gòu)買 Scale.ai 專家網(wǎng)絡(luò) 50% 的股份。

Wang提出的一個(gè)關(guān)鍵觀點(diǎn)是：“數(shù)據(jù)生產(chǎn)將是未來(lái)人工智能系統(tǒng)的命脈”，他強(qiáng)調(diào)了人的因素——這就是 Meta 斥資 150 億美元收購(gòu) Alex 的原因。

Alex Wang 評(píng)論的一些附加背景：數(shù)據(jù)生產(chǎn)與香料生產(chǎn)非常相似;它將成為未來(lái)人工智能系統(tǒng)的命脈。最優(yōu)秀、最聰明的人是命脈的關(guān)鍵來(lái)源之一，但專有數(shù)據(jù)同樣重要。僅摩根大通就擁有數(shù)百 PB 的數(shù)據(jù)，而 GPT-4 的訓(xùn)練數(shù)據(jù)不到 1 PB。企業(yè)和政府擁有的專有數(shù)據(jù)比輸入前沿模型時(shí)要多幾個(gè)數(shù)量級(jí)，而這些數(shù)據(jù)庫(kù)可以為下一波真正的精英系統(tǒng)提供動(dòng)力。

懸而未決的問(wèn)題是合成數(shù)據(jù)的作用。最合理的路徑是人類與人工智能的混合生成：人工智能處理批量創(chuàng)建，而領(lǐng)域?qū)＜遥ň哂猩詈裢评砟芰Φ娜耍﹦t注入高保真更正和見(jiàn)解?；旌先祟?人工智能數(shù)據(jù)是實(shí)現(xiàn)未來(lái)模型所需的極致質(zhì)量和細(xì)微差別的唯一途徑。

Meta 報(bào)道的 Scale AI 交易價(jià)值 150 億美元，凸顯了這一現(xiàn)實(shí)。此次收購(gòu)與其說(shuō)是關(guān)于工具，不如說(shuō)是聯(lián)系 Alex Wang、一小群專家以及 Scale 跨多個(gè)領(lǐng)域的專家標(biāo)簽師網(wǎng)絡(luò)。人類專家推理痕跡已成為前沿實(shí)驗(yàn)室的新瓶頸。實(shí)際上，這些公司正在呼吁提供愛(ài)國(guó)數(shù)據(jù)，以便其他人都能受益，因?yàn)槿绻麤](méi)有這些經(jīng)過(guò)人類驗(yàn)證的痕跡，大型語(yǔ)言模型將停滯在目前的上限。

“數(shù)據(jù)共產(chǎn)主義”

Alex Wang 評(píng)論中有趣的部分是，他基本上是在呼吁各個(gè)領(lǐng)域的專家為造福人類“貢獻(xiàn)”他們的專業(yè)知識(shí)。Scale 為這些專家的時(shí)間支付了費(fèi)用，但仍然是小時(shí)工資勞動(dòng)。

半開(kāi)玩笑的標(biāo)題，“各盡其能，各取所需”是卡爾·馬克思經(jīng)濟(jì)哲學(xué)的核心。如果你瞇著眼睛看，這聽(tīng)起來(lái)很像 Alex Wang 的提議：主題專家為模型訓(xùn)練貢獻(xiàn)他們的知識(shí)，造福人類。

在以 150 億美元收購(gòu)后，亞歷克斯·王（Alex Wang）可能成為歷史上最富有的共產(chǎn)黨人。

為什么編碼是一個(gè)如此強(qiáng)大的用例

在企業(yè)中，有一個(gè)非常具體的用例已經(jīng)起飛，并給出了支持前沿模型訓(xùn)練的各種跡象。為什么編碼如此受歡迎？為什么軟件工程代理是企業(yè)中的第一個(gè)殺手級(jí)應(yīng)用程序？

讓我們深入了解一下。

下圖頂部的面孔是 Anthropic PBC 首席執(zhí)行官 Dario Amodei，他的 Claude 模型為 Cursor 產(chǎn)品提供支持——軟件工程代理。Cursor 只是許多軟件工程代理中的一個(gè)典型例子。

我們?nèi)匀惶幱谙嗤闹悄茈S時(shí)間變化曲線上，在 ChatGPT 消費(fèi)者激增之后，我們看到一個(gè)標(biāo)記為“Claude + Cursor SWE Agents”的新階梯函數(shù)。左邊的收入表——發(fā)布時(shí)為 100 萬(wàn)美元，第 12 個(gè)月為 1 億美元，第 24 個(gè)月為 3 億美元，第 30 個(gè)月為 5 億美元——說(shuō)明了采用速度有多快。

是什么讓編碼特別適合早期企業(yè)代理的成功，在我們將這種模型推廣到反饋信號(hào)不那么清晰的財(cái)務(wù)、供應(yīng)鏈或客戶服務(wù)領(lǐng)域之前，還存在哪些障礙？下面的評(píng)論提供了答案：

試錯(cuò)學(xué)習(xí)（正式術(shù)語(yǔ)的強(qiáng)化學(xué)習(xí)）解釋了軟件工程代理的突破性成功。與消耗 15 萬(wàn)億個(gè)數(shù)據(jù)令牌的基礎(chǔ)模型不同，編碼代理生成自己的數(shù)據(jù)。它提出解決方案，運(yùn)行測(cè)試并立即從通過(guò)或失敗的反饋中學(xué)習(xí)。該循環(huán)提供無(wú)窮無(wú)盡的合成數(shù)據(jù)和內(nèi)在獎(jiǎng)勵(lì)信號(hào)，無(wú)需大量專有數(shù)據(jù)集。同樣重要的是，該工作流程可以整齊地融入成熟的開(kāi)發(fā)人員工具中，因此采用無(wú)需進(jìn)行組織手術(shù)。

這些條件使軟件工程成為人工智能代理的天然灘頭陣地。Cursor 是標(biāo)志性的參考點(diǎn)，但數(shù)十種類似的工具正在快速擴(kuò)展，幾乎所有工具都被 Anthropic 的 Claude 前沿模型作為首選引擎。大多數(shù)產(chǎn)品都專注于編寫全新的代碼或語(yǔ)言之間的翻譯;遺留代碼庫(kù)的大規(guī)模重構(gòu)是一個(gè)更難的問(wèn)題，并且在很大程度上仍未得到開(kāi)發(fā)。軟件和數(shù)學(xué)領(lǐng)域的成功不會(huì)自動(dòng)移植到其他企業(yè)領(lǐng)域，在這些領(lǐng)域中，等效的高保真反饋循環(huán)更難構(gòu)建——我們將在后續(xù)幻燈片中探討這一挑戰(zhàn)。

量化軟件工程和數(shù)學(xué)為何大放異彩

讓我們更深入地挖掘?yàn)槭裁?SWE 和數(shù)學(xué)是這樣的好例子。下圖跟蹤了過(guò)去五年中一籃子“智力”基準(zhǔn)（小學(xué)數(shù)學(xué)、競(jìng)爭(zhēng)性數(shù)學(xué)、軟件工程任務(wù)套件、多科目考試）的準(zhǔn)確性。Y 軸是基準(zhǔn)精度;X 軸是日歷年。一切都蜿蜒向上，直到 2024 年的某個(gè)時(shí)候，然后紅色框顯示出近乎垂直的激增。發(fā)生了什么變化？在已經(jīng)很強(qiáng)大的基礎(chǔ)模型之上進(jìn)行訓(xùn)練后強(qiáng)化學(xué)習(xí)。

在預(yù)訓(xùn)練時(shí)代（基本上到 2024 年年中），數(shù)據(jù)效率并不高，依賴于抓取大量但有限的免費(fèi)互聯(lián)網(wǎng)文本庫(kù)。一旦這些井開(kāi)始干涸，進(jìn)度就會(huì)遞減回報(bào)。拐點(diǎn)出現(xiàn)在 2024 年底，當(dāng)時(shí)訓(xùn)練后時(shí)代已經(jīng)到來(lái)。試錯(cuò)學(xué)習(xí)，即強(qiáng)化學(xué)習(xí)，允許模型生成候選輸出，自主驗(yàn)證它們，并根據(jù)正確或錯(cuò)誤的信號(hào)更新權(quán)重。數(shù)學(xué)和編碼的基準(zhǔn)測(cè)試幾乎立即做出反應(yīng)，以近乎垂直的速度攀升。

該機(jī)制很簡(jiǎn)單：代理檢查自己的工作;如果測(cè)試通過(guò)，梯度會(huì)強(qiáng)化該解決方案。如果失敗，則模型進(jìn)行調(diào)整。該循環(huán)無(wú)需數(shù)萬(wàn)億個(gè)新代幣即可帶來(lái)巨大的收益。這兩個(gè)領(lǐng)域都提供了一個(gè)直接的、明確的獎(jiǎng)勵(lì)信號(hào)——代碼編譯或不編譯，或者通過(guò)單元測(cè)試或未通過(guò);數(shù)學(xué)要么是對(duì)的，要么是錯(cuò)的——所以智能體可以作為客觀的驗(yàn)證工具，重試和學(xué)習(xí)。這種緊密的循環(huán)意味著你不需要另外 10 萬(wàn)億個(gè)預(yù)訓(xùn)練數(shù)據(jù)令牌;你只需要一個(gè)可驗(yàn)證的獎(jiǎng)勵(lì)。

但該捕獲物在圖形右側(cè)標(biāo)出。該秘訣尚未推廣到法律推理或財(cái)務(wù)預(yù)測(cè)等，在這些預(yù)測(cè)中，基本事實(shí)是模糊的、延遲的或埋沒(méi)在人類的判斷中。

推廣該技術(shù)仍然是一個(gè)懸而未決的挑戰(zhàn)。兩條路徑正在出現(xiàn)：

難以驗(yàn)證的領(lǐng)域 – 答案缺乏二進(jìn)制通過(guò)/失敗的領(lǐng)域必須依靠第二個(gè) LLM 來(lái)批評(píng)輸出，評(píng)估正確性的各個(gè)方面并提供結(jié)構(gòu)化反饋。這種方法是可行的，但要困難得多。
新的可驗(yàn)證領(lǐng)域 – 能夠提供客觀獎(jiǎng)勵(lì)信號(hào)的領(lǐng)域，例如在高保真數(shù)字孿生中建模的領(lǐng)域，應(yīng)該會(huì)產(chǎn)生與數(shù)學(xué)和編碼相當(dāng)?shù)倪M(jìn)步。數(shù)字孿生的討論將在后續(xù)部分中進(jìn)行。

關(guān)鍵的一點(diǎn)是，一旦一個(gè)領(lǐng)域提供了自動(dòng)驗(yàn)證器，訓(xùn)練后的效率就會(huì)爆炸式增長(zhǎng)?，F(xiàn)在的競(jìng)賽是識(shí)別或構(gòu)建軟件和數(shù)學(xué)之外的可驗(yàn)證環(huán)境。

可能會(huì)有一種生成合成數(shù)據(jù)的新方法，可以讓我們克服數(shù)據(jù)瓶頸和客觀可驗(yàn)證獎(jiǎng)勵(lì)的挑戰(zhàn)——這是在王兌現(xiàn)支票后不久出現(xiàn)的。它與試錯(cuò)學(xué)習(xí)（一個(gè)花哨的術(shù)語(yǔ)是強(qiáng)化學(xué)習(xí)）和模型有關(guān)，這些模型可以在沒(méi)有人類參與的情況下驗(yàn)證主觀而非客觀的答案。換句話說(shuō)，我們可能有辦法繞過(guò)人類專家注釋者詳細(xì)說(shuō)明他們的推理，從而得出正確的答案。

GPT5 或不久之后的升級(jí)似乎將嘗試生成專家問(wèn)題、答案和推理軌跡的某種組合以獲得答案。另一個(gè)模型，就像老師或驗(yàn)證者一樣，將對(duì)正確答案和推理痕跡進(jìn)行評(píng)分。這樣，模型可能能夠像學(xué)習(xí)數(shù)學(xué)和編碼一樣，走上陡峭的學(xué)習(xí)曲線，獲得更主觀的答案。

軟件工程是超越消費(fèi)者代理的下一波浪潮

憑借可驗(yàn)證的獎(jiǎng)勵(lì)，SWE 代理的改進(jìn)速度比通用底層模型快得多。一旦你將強(qiáng)化學(xué)習(xí)注入到可靠的獎(jiǎng)勵(lì)信號(hào)中，進(jìn)步就會(huì)呈指數(shù)級(jí)增長(zhǎng)。

在下圖上，Y 軸繪制了“任務(wù)長(zhǎng)度”（想想：人類需要的掛鐘工作）。平緩的綠色斜率（七個(gè)月的節(jié)奏）被右側(cè)的藍(lán)色趨勢(shì)線所掩蓋——每 70 天將時(shí)間范圍減半。

左圖（METR 數(shù)據(jù)）。在通用代理基準(zhǔn)測(cè)試中，人工智能在沒(méi)有人工牽手的情況下可以完成的任務(wù)長(zhǎng)度大約每七個(gè)月翻一番。GPT-2 可以回答一個(gè)瑣事問(wèn)題;GPT-4o 可以花費(fèi) ~15 分鐘自主優(yōu)化定制芯片的代碼。

這張幻燈片隔離了代理自我改進(jìn)的核心問(wèn)題。對(duì)于廣泛、松散驗(yàn)證的任務(wù)，唯一的提升來(lái)自基本模型的通用增益和偶爾的評(píng)估周期——大約每七個(gè)月自動(dòng)任務(wù)長(zhǎng)度就會(huì)增加一倍。相比之下，軟件開(kāi)發(fā)代理在運(yùn)行時(shí)發(fā)出硬獎(jiǎng)勵(lì)信號(hào)：他們要么通過(guò)單元測(cè)試，要么不通過(guò)。這種可驗(yàn)證的反饋推動(dòng)強(qiáng)化學(xué)習(xí)，每 70 天使任務(wù)復(fù)雜性翻一番。這里的指標(biāo)很簡(jiǎn)單，即代理可以在沒(méi)有人工干預(yù)的情況下運(yùn)行多長(zhǎng)時(shí)間。更尖銳的斜率證明，硬的二元獎(jiǎng)勵(lì)信號(hào)可以將學(xué)習(xí)速度提高一個(gè)數(shù)量級(jí)。這是重要的要點(diǎn)。

探索支撐模型的殘酷經(jīng)濟(jì)學(xué)

在加冕一個(gè)模型之王之前，讓我們先看看代理人工智能產(chǎn)品興起背后模型的殘酷經(jīng)濟(jì)學(xué)。在下圖中，Y 軸是綜合基準(zhǔn)分?jǐn)?shù);每個(gè)彩色步驟代表一個(gè)新的肖像權(quán)授權(quán)書。暗線突出了 OpenAI 的領(lǐng)先模型，該模型本身會(huì)發(fā)生變化（每個(gè)方點(diǎn)都會(huì)發(fā)生變化），以及競(jìng)爭(zhēng)對(duì)手的快速追趕（其他彩色線）。

階梯圖繪制了過(guò)去 24 個(gè)月中來(lái)自 OpenAI、Anthropic、Google、Meta、DeepSeek、阿里巴巴等的前沿模型的獨(dú)立“人工智能智能指數(shù)”。

垂直跳躍（紅色 CAG 標(biāo)注）標(biāo)志著競(jìng)爭(zhēng)優(yōu)勢(shì)差距——一個(gè)版本領(lǐng)先于其他版本的飛躍程度。
水平線顯示 CAP（競(jìng)爭(zhēng)優(yōu)勢(shì)期）——在競(jìng)爭(zhēng)對(duì)手追趕之前領(lǐng)先優(yōu)勢(shì)持續(xù)多長(zhǎng)時(shí)間。

最突出的是這兩個(gè)維度都變得多么小。GPT-4o 處于領(lǐng)先地位，但在幾周內(nèi)，DeepSeek R1 或 Gemini 3 縮小了差距。API 之間的切換成本是用幾行 Python 代碼來(lái)衡量的，因此 CAP 會(huì)隨著每個(gè)版本的發(fā)布而縮短。換句話說(shuō)，你可以在計(jì)算和數(shù)據(jù)上花費(fèi) 10 億美元，只是為了在市場(chǎng)將你的優(yōu)勢(shì)降低到零之前享受六周的定價(jià)保護(hù)傘。

關(guān)鍵是，在前沿訓(xùn)練運(yùn)行上花費(fèi) 100 億美元和多年時(shí)間不再保證持久的優(yōu)勢(shì)。當(dāng)新模型登陸的那一刻，競(jìng)爭(zhēng)領(lǐng)先優(yōu)勢(shì)幾乎可以像新的消費(fèi)電子產(chǎn)品周期一樣迅速消失。與制藥行業(yè)不同——專利保護(hù)確保了十年的排他性——模型訓(xùn)練沒(méi)有可比的護(hù)城河。

當(dāng)前的競(jìng)賽圍繞著越來(lái)越大的計(jì)算集群和漸進(jìn)式算法調(diào)整展開(kāi)。任何擁有足夠資本的公司都可以獲得硬件規(guī)模;算法見(jiàn)解通過(guò)開(kāi)放研究和員工流動(dòng)迅速傳播。專有的訓(xùn)練數(shù)據(jù)有幫助，但它只是一個(gè)組成部分，很少是決定性的。為了實(shí)現(xiàn)巨大的競(jìng)爭(zhēng)優(yōu)勢(shì)差距和持久的競(jìng)爭(zhēng)優(yōu)勢(shì)期，游戲規(guī)則必須改變。下一個(gè)時(shí)代將需要一個(gè)完全不同的數(shù)據(jù)基礎(chǔ)，一個(gè)能夠賦予持續(xù)、可防御優(yōu)勢(shì)的數(shù)據(jù)基礎(chǔ)。這個(gè)基礎(chǔ)就是以下部分中討論的企業(yè)數(shù)字孿生。

為了戲弄最后一部分，Jamie Dimon 和任何其他可以將其數(shù)據(jù)建模為運(yùn)營(yíng)數(shù)字孿生的企業(yè)都可以訓(xùn)練具有非常高的 CAG 和持久 CAP 的專有代理。所有的資本支出可能都投入到六個(gè)或更多的前沿實(shí)驗(yàn)室，但可持續(xù)的差異化將在于這些企業(yè)。

Messiah AGI 的定價(jià)模型

現(xiàn)在讓我們探討一下這種動(dòng)態(tài)如何體現(xiàn)在底層前沿模型的定價(jià)模型中。下圖說(shuō)明了這一點(diǎn)。這就是這些優(yōu)勢(shì)窗口縮小背后的殺手锏：代幣價(jià)格處于自由落體狀態(tài)。Y 軸是每百萬(wàn)個(gè)代幣的對(duì)數(shù)尺度價(jià)格（從 100 美元到亞美分）。X 軸跨度為 2021 年 10 月至 2025 年 4 月。每條對(duì)角線都顯示了連續(xù)的車型發(fā)布，每隔幾個(gè)月就會(huì)降低一個(gè)數(shù)量級(jí)的價(jià)格。

因此，每百萬(wàn)個(gè)代幣相對(duì)于發(fā)布日期。每條彩色趨勢(shì)線都是不同的功能層 - GPT-3.5 類（青色）、GPT-4 類（粉紅色）、GPT-4o-plus（藍(lán)色）。無(wú)論級(jí)別如何，價(jià)格都在呈指數(shù)級(jí)下降：

隨著每一代新車型的出現(xiàn)，坡度都變得越來(lái)越陡
GPT3.5 Turbo級(jí)車型價(jià)格每年下降9次
GPT4 類模型價(jià)格每年下降 40 次
GPT4o 類模型的價(jià)格以每年 900 次的速度下降。

換句話說(shuō)，你可以在 GPT-6 訓(xùn)練上燃燒 100 億美元，并觀察市場(chǎng)在一個(gè)季度內(nèi)以一小部分利潤(rùn)重新定價(jià)該產(chǎn)出。為 API 的客戶投入最低的轉(zhuǎn)換成本，您就會(huì)明白情況。關(guān)鍵是，打包的代理——與專有數(shù)據(jù)和工作流程上下文捆綁在一起——是我們認(rèn)為持久經(jīng)濟(jì)性將存在的地方。

API 定價(jià)的加速崩潰與建立在基礎(chǔ)上的產(chǎn)品的經(jīng)濟(jì)性截然不同。風(fēng)險(xiǎn)投資正以前所未有的速度涌入前沿實(shí)驗(yàn)室。民族國(guó)家基金正在為國(guó)內(nèi)模式工作提供資金，中國(guó)實(shí)驗(yàn)室正在激增，知名參與者——埃隆·馬斯克（Elon Musk）就是其中之一——正在爭(zhēng)先恐后地加入競(jìng)爭(zhēng)。與 90 年代末互聯(lián)網(wǎng)泡沫的相似之處是不容忽視的——數(shù)百億美元的人追逐越來(lái)越像海市蜃樓的東西。

如今，消費(fèi)者代理的桂冠已經(jīng)掌握在現(xiàn)任領(lǐng)導(dǎo)者手中，領(lǐng)先的 API 位置屬于 Anthropic。持久的差異化不會(huì)來(lái)自另一輪資本密集型模型訓(xùn)練;它將來(lái)自做一些真正不同的事情。這種必要性迎來(lái)了下一個(gè)時(shí)代，在這個(gè)時(shí)代，優(yōu)勢(shì)轉(zhuǎn)移到差異化的數(shù)據(jù)基礎(chǔ)和特定領(lǐng)域的代理平臺(tái)。

第三個(gè)時(shí)代：企業(yè)代理

讓我們回到人工智能的三個(gè)時(shí)代。

我們已經(jīng)繞了一圈：消費(fèi)者聊天機(jī)器人讓我們開(kāi)始了，編碼代理被證明是一個(gè)飛輪，但在我們看來(lái)，企業(yè)代理才是真正的資金和長(zhǎng)期護(hù)城河的所在。想想三個(gè)離散時(shí)代的軌跡，映射在你整集看到的曲線上：

預(yù)訓(xùn)練時(shí)代——消費(fèi)者代理。ChatGPT 展示了該產(chǎn)品的強(qiáng)大程度，但底層模型 API 的收入受到代幣價(jià)格暴跌和低轉(zhuǎn)換成本的限制。
后訓(xùn)練時(shí)代——編碼代理。Claude-plus-Cursor 在可驗(yàn)證的輸出上驗(yàn)證了 RL，每 70 天將任務(wù)復(fù)雜性翻一番，并將年度經(jīng)常性收入推向新的規(guī)模。
數(shù)字孿生時(shí)代——企業(yè)代理。

核心要點(diǎn)是人工智能是由數(shù)據(jù)編程的，真正的持久差異化將來(lái)自專有數(shù)據(jù)。將摩根大通視為任何先進(jìn)企業(yè)的替代品。初步估計(jì)其私有語(yǔ)料庫(kù)約為 150 PB，已經(jīng)是用于訓(xùn)練 GPT-4 級(jí)模型的半 PB 至 1 PB 的數(shù)百倍。最近的數(shù)據(jù)表明，該銀行可能會(huì)保持在艾字節(jié)的數(shù)量級(jí)。然而，交易量本身并不是故事;這是數(shù)據(jù)建模以代表日常運(yùn)營(yíng)的方式。企業(yè)數(shù)據(jù)密集、高信號(hào)，如果組織得當(dāng)，比為前沿模型提供信息的廣泛、低信號(hào)抓取要豐富得多。

釋放這種價(jià)值需要幾個(gè)轉(zhuǎn)變：

掌握強(qiáng)化學(xué)習(xí)：試錯(cuò)循環(huán)，能夠持續(xù)改進(jìn)實(shí)時(shí)業(yè)務(wù)任務(wù)。
新的數(shù)據(jù)基礎(chǔ)：跟蹤人、地點(diǎn)、事物和活動(dòng)的數(shù)字孿生。這種以流程為中心的模型突破了六十年的應(yīng)用程序和數(shù)據(jù)孤島;它不僅僅是一個(gè)更大的湖泊。
開(kāi)放式型號(hào)。早期證據(jù)表明，當(dāng)?shù)讓訖?quán)重可訪問(wèn)時(shí)，強(qiáng)化學(xué)習(xí)效果最佳，這一要求與大多數(shù)前沿實(shí)驗(yàn)室的封閉 API 商業(yè)模式相沖突。米拉·穆拉蒂（Mira Murati）的思維機(jī)器（Thinking Machines）的努力似乎是調(diào)和開(kāi)放性與商業(yè)可行性的一條道路。

這些元素將引發(fā)新的上市運(yùn)動(dòng)、新一代應(yīng)用程序平臺(tái)供應(yīng)商、改進(jìn)的技術(shù)堆棧，并最終為采用它們的企業(yè)帶來(lái)組織和業(yè)務(wù)模式的變化。

設(shè)想“企業(yè)通用人工智能”

讓我們深入研究一下企業(yè) AGI 的實(shí)際面貌。下面是許多人用來(lái)描述代理人工智能要素的經(jīng)典圖表——但在我們看來(lái)，缺少為企業(yè)提供動(dòng)力的關(guān)鍵部分。

大多數(shù)代理圖看起來(lái)都是一樣的——左邊的工具——日歷、計(jì)算器、代碼解釋器、搜索;右邊的認(rèn)知模塊——計(jì)劃、反思、自我批評(píng)、思維鏈、子目標(biāo)分解;頂部的內(nèi)存堆棧;底部有一個(gè)動(dòng)作端口。整個(gè)畫面都是以算法為中心的，因?yàn)檫@是計(jì)算機(jī)科學(xué)研究人員的獎(jiǎng)勵(lì)。數(shù)據(jù)幾乎不會(huì)出現(xiàn)，但在企業(yè)中，數(shù)據(jù)就是一切。

這個(gè)特殊的圖表——借用了斯坦福大學(xué)最近的一次計(jì)算機(jī)科學(xué)講座——省略了實(shí)際創(chuàng)造價(jià)值的組成部分——環(huán)境或世界模型。代理只能通過(guò)與其環(huán)境交互并接收有關(guān)結(jié)果的反饋來(lái)學(xué)習(xí)。在學(xué)術(shù)環(huán)境中，這種遺漏是事后才想到的;在商業(yè)環(huán)境中，它是玩具和可以轉(zhuǎn)移收入、成本或風(fēng)險(xiǎn)的系統(tǒng)之間的區(qū)別。

主流智能體思維中缺乏一流的數(shù)據(jù)層，這凸顯了為什么企業(yè)智能體仍然是一個(gè)未被充分探索的前沿領(lǐng)域。這種顛覆正讓整個(gè)行業(yè)面臨著面對(duì)，但很少有人承認(rèn)這一點(diǎn)，因?yàn)閷?duì)話是由算法英雄而不是數(shù)據(jù)現(xiàn)實(shí)主義主導(dǎo)的。

游戲示例具有指導(dǎo)意義

讓我們從代理開(kāi)始的真實(shí)模型中提取一些示例。

在我們對(duì)企業(yè)數(shù)字孿生這個(gè)詞進(jìn)行太多自由之前，記住對(duì)人工智能研究人員來(lái)說(shuō)重要的第一個(gè)孿生是在游戲中看到的。DeepMind 的 AlphaStar 學(xué)會(huì)主宰《星際爭(zhēng)霸 II》不僅因?yàn)樗哪Ｐ图軜?gòu)很神奇，還因?yàn)檎麄€(gè)游戲環(huán)境——單位、資源、時(shí)間和戰(zhàn)爭(zhēng)迷霧的 4D 地圖——被曝光為一個(gè)完美的、實(shí)時(shí)的、真實(shí)世界的模型。

在下圖中，我們?cè)?X 軸上顯示了匹配評(píng)分或 MMR 百分位數(shù)，在 Y 軸上顯示了技能水平。藍(lán)色曲線是人類從白銀到特級(jí)大師的進(jìn)步;紅點(diǎn)是 AlphaStar 突破最高百分位數(shù)——通過(guò)強(qiáng)化學(xué)習(xí)數(shù)字孿生發(fā)現(xiàn)了人類從未嘗試過(guò)的策略。

關(guān)鍵的見(jiàn)解是將游戲世界中的人、地點(diǎn)、事物和活動(dòng)映射到企業(yè)內(nèi)部的相同四個(gè)維度——人、地點(diǎn)、事物和流程。傳統(tǒng)的數(shù)據(jù)平臺(tái)提供靜態(tài)快照，即萬(wàn)花筒視圖。代理需要更豐富的動(dòng)態(tài)表示，以捕捉作如何在整個(gè)企業(yè)中產(chǎn)生漣漪。當(dāng)代理修改流程中的某個(gè)步驟時(shí)，它需要地圖來(lái)跟蹤對(duì)下游人員和工作流程的影響。

強(qiáng)化學(xué)習(xí)首先在已經(jīng)包含此類世界模型的環(huán)境中蓬勃發(fā)展。DeepMind 的《星際爭(zhēng)霸》AlphaStar 和 OpenAI 在 Dota 策略游戲上的工作就是典型的例子。每個(gè)環(huán)境都提供了持續(xù)的、可驗(yàn)證的獎(jiǎng)勵(lì)——測(cè)試戰(zhàn)略選擇和最終輸贏結(jié)果的中間信號(hào)。這些條件使代理能夠快速迭代并改進(jìn)。

同樣的原則也適用于企業(yè)。通過(guò)構(gòu)建四維數(shù)字孿生（人、地點(diǎn)、事物、流程），企業(yè)可以提供代理學(xué)習(xí)、適應(yīng)并最終在復(fù)雜運(yùn)營(yíng)中推動(dòng)可衡量結(jié)果所需的反饋循環(huán)。AlphaStar 和 Dota 的經(jīng)驗(yàn)教訓(xùn)構(gòu)成了這種更高級(jí)的企業(yè)級(jí)實(shí)施的藍(lán)圖。

如果一個(gè)代理可以利用合成世界模型來(lái)?yè)魯?99% 的職業(yè)玩家，想象一下當(dāng)“地圖”是銀行的數(shù)字孿生或供應(yīng)鏈的實(shí)時(shí)模型時(shí)，它能做什么。但這也意味著企業(yè)（而不是供應(yīng)商）必須擁有并策劃世界模型，以便代理可以通過(guò)可驗(yàn)證的獎(jiǎng)勵(lì)來(lái)學(xué)習(xí)。關(guān)鍵是，AlphaStar 的經(jīng)驗(yàn)教訓(xùn)將轉(zhuǎn)化為金融、醫(yī)療保健和制造業(yè)，以及任何具有數(shù)字孿生的東西。

Minecraft 所學(xué)技能示例

Minecraft 是下一個(gè)參考世界模型。在航海者號(hào)項(xiàng)目中，環(huán)境比《星際爭(zhēng)霸》更加開(kāi)放。代理首先學(xué)習(xí)如何制作簡(jiǎn)單的石器，然后使用這些工具構(gòu)建基本結(jié)構(gòu)。隨著能力的提高，它發(fā)現(xiàn)了如何鍛造更先進(jìn)的工具，每一項(xiàng)新功能都會(huì)解鎖更廣泛的任務(wù)。隨著時(shí)間的推移，代理會(huì)積累技能并擴(kuò)展其可以使用的工具集。這種漸進(jìn)的、自主的技能獲取至關(guān)重要，因?yàn)槊恳环N新能力都會(huì)豐富環(huán)境，進(jìn)而為進(jìn)一步學(xué)習(xí)提供更豐富的反饋。這種模式——學(xué)習(xí)一種工具，用它來(lái)創(chuàng)造價(jià)值，學(xué)習(xí)下一個(gè)工具——為構(gòu)建企業(yè)世界模型提供了一個(gè)重要的模板，在這種模型中，代理不斷擴(kuò)展自己的行動(dòng)空間。

沒(méi)有數(shù)據(jù)的算法 = 代理失敗

現(xiàn)在讓我們真正嘗試加倍強(qiáng)調(diào)數(shù)據(jù)的重要性。

每個(gè)關(guān)于人工智能的頭條新聞都?xì)w功于算法——AlexNet、Transformers、RLHF、新的推理堆?！@張幻燈片的右側(cè)提醒我們，每一項(xiàng)突破實(shí)際上都是由一個(gè)新的數(shù)據(jù)集時(shí)代引發(fā)的。

算法	數(shù)據(jù)集
亞歷克斯網(wǎng) （2012）	ImageNet – 包含 14 M 張照片的標(biāo)記語(yǔ)料庫(kù)
變形金剛（2017）	網(wǎng)絡(luò)爬蟲(chóng) – 大規(guī)模抓取數(shù)萬(wàn)億個(gè)令牌
RLHF 聊天機(jī)器人（2022）	獎(jiǎng)勵(lì)模型數(shù)據(jù) – 人工排名的響應(yīng)
推理代理（現(xiàn)在）	企業(yè)孿生 – 可驗(yàn)證的、特定于領(lǐng)域的世界模型

杰克·莫里森（Jack Morrison）最近在 Latent Space 播客上強(qiáng)調(diào)了一篇博客文章，強(qiáng)調(diào)了一個(gè)反復(fù)出現(xiàn)的盲點(diǎn)：每個(gè)人都專注于算法突破，而忽略了隱藏在眾目睽睽之下的數(shù)據(jù)集。莫里森勾勒出推理時(shí)代，并指出代理將從驗(yàn)證者（數(shù)學(xué)計(jì)算器、編譯器和代碼單元測(cè)試）中學(xué)習(xí)，但關(guān)鍵數(shù)據(jù)集框基本上是空白的。數(shù)據(jù)集是顯而易見(jiàn)的。每個(gè)組織都在或?qū)⒁獦?gòu)建一個(gè)平臺(tái)，以捕獲其運(yùn)營(yíng)的越來(lái)越大的數(shù)字孿生。這對(duì)孿生——人、地點(diǎn)、事物、流程——是巨大的、高保真語(yǔ)料庫(kù)，將為企業(yè)級(jí)推理提供動(dòng)力。

將企業(yè)代理與數(shù)字孿生連接起來(lái)

現(xiàn)在讓我們?cè)诙x企業(yè)代理時(shí)將企業(yè)代理與數(shù)字孿生連接起來(lái)。

我們已經(jīng)從消費(fèi)者聊天上升到編碼/SWE 代理——下面的幻燈片顯示了這一切在公司內(nèi)部的運(yùn)作方式。Palantir 的圖表在右下角突出顯示了端到端供應(yīng)鏈孿生;左側(cè)的紅色標(biāo)注突出顯示了饋送代理箱的 RL 反饋箭頭。度量樹(shù)說(shuō)明了“發(fā)生了什么”如何匯總到“我們應(yīng)該做什么？

考慮三個(gè)協(xié)同工作的層：

安裝數(shù)字孿生——如此處所示的 Palantir 原理圖——只是第一步。將這種表示轉(zhuǎn)化為代理學(xué)習(xí)的引擎是度量樹(shù)。與傳統(tǒng)的商業(yè)智能儀表板不同，在傳統(tǒng)的商業(yè)智能儀表板中，關(guān)鍵績(jī)效指標(biāo)位于孤立的表或手工編碼的公式中，指標(biāo)樹(shù)將學(xué)習(xí)的分層圖中的每個(gè)度量鏈接起來(lái)。更改一個(gè)節(jié)點(diǎn)（例如，授權(quán)產(chǎn)品退貨），樹(shù)會(huì)揭示客戶支持滿意度、現(xiàn)有庫(kù)存和現(xiàn)金流指標(biāo)之間的漣漪。雙胞胎越富有，這些關(guān)系的保真度就越高。

代理位于此結(jié)構(gòu)之上，并動(dòng)態(tài)選擇與分析意圖相對(duì)應(yīng)的工具：

發(fā)生了什么事？— 孿生上的 SQL 查詢
為什么會(huì)這樣？— 業(yè)務(wù)規(guī)則執(zhí)行和圖推理
接下來(lái)可能會(huì)發(fā)生什么？— 預(yù)測(cè)性機(jī)器學(xué)習(xí)
我們?cè)撛趺崔k？— 規(guī)范性機(jī)器學(xué)習(xí)

如果樹(shù)缺少指標(biāo)，代理會(huì)添加一個(gè)指標(biāo)——就像《我的世界》中的航海者號(hào)如何學(xué)習(xí)新工具和技能，然后將它們反饋到環(huán)境中一樣。每個(gè)新指標(biāo)都成為一種工具;每一個(gè)成功的動(dòng)作都成為一種技能;兩者都流入孿生，迭代地?cái)U(kuò)大其范圍。結(jié)果是一個(gè)自我強(qiáng)化的反饋循環(huán)：智能體的動(dòng)作豐富了符號(hào)模型，而豐富的模型反過(guò)來(lái)又提高了智能體的決策。雙胞胎不必在第一天就完美無(wú)缺;它與代理能力同步增長(zhǎng)。

新的企業(yè)架構(gòu)正在興起

讓我們看看這將如何影響企業(yè)架構(gòu)。

下圖建立在我們之前的工作基礎(chǔ)上，并將其整合在一起。它還回答了這樣一個(gè)問(wèn)題：誰(shuí)在真正構(gòu)建業(yè)務(wù)的實(shí)時(shí)數(shù)字表示？

該圖重現(xiàn)了 Breaking Analysis 和 Services-as-Software 中經(jīng)常使用的分層堆棧。

紫色 – 參與系統(tǒng)。BI 參與者（Tableau、Hex、Sigma、Power BI）必須通過(guò)指標(biāo)和維度將業(yè)務(wù)上下文注入平臺(tái)。
綠色 – 智能系統(tǒng)。這就是數(shù)字孿生層，最有價(jià)值的房地產(chǎn)。爭(zhēng)奪 4D 地圖的供應(yīng)商包括 Palantir、Celonis、Blue Yonder、Salesforce Data Cloud、RelationalAI、ServiceNow 和 Databricks（愿望）。無(wú)論誰(shuí)在這里硬連接業(yè)務(wù)邏輯和技能，都會(huì)為其他人設(shè)定規(guī)則。
黃色 – 代理系統(tǒng)。一旦孿生上線，代理就會(huì)致電它尋求答案并通過(guò)它路由回寫，確保每個(gè)作都受到受監(jiān)管的策略。
橙色 – 治理。策略和世系跨越堆棧。
藍(lán)色 – 數(shù)據(jù)基礎(chǔ)設(shè)施。Snowflake、Databricks 和超大規(guī)模企業(yè)都坐在這里——至關(guān)重要的管道，但隨著價(jià)值向上移動(dòng)，利潤(rùn)壓力也越來(lái)越大。

這種模式與信息技術(shù)的歷史相呼應(yīng)：每個(gè)新的抽象層都包含下面的抽象層。下層不斷創(chuàng)新，但一旦上層決定公開(kāi)哪些功能，就會(huì)失去基于功能的差異化和定價(jià)權(quán)。傳統(tǒng)數(shù)據(jù)平臺(tái)捕獲字符串的快照;以指標(biāo)為中心的平臺(tái)將它們升級(jí)為事物的快照。綠色層更進(jìn)一步——捕獲流程——彌合了 60 年的應(yīng)用程序和數(shù)據(jù)孤島。

競(jìng)爭(zhēng)者快速瀏覽：

Palantir 提供了豐富的本體——強(qiáng)大但要求很高，是那些能夠使用它們的人的終極工具集。
Celonis 捕獲數(shù)千個(gè)流程變體的現(xiàn)狀，然后打包優(yōu)化，以便客戶避免手動(dòng)構(gòu)建每個(gè)流程。
Blue Yonder 提供隨時(shí)可用的端到端供應(yīng)鏈模式。
Salesforce 已經(jīng)對(duì)客戶流程進(jìn)行了建模，并打算遠(yuǎn)遠(yuǎn)超出這一目標(biāo)，收購(gòu) Informatica 強(qiáng)調(diào)了這一目標(biāo)。
RelationalAI 引入了一個(gè)具有電子表格級(jí)可訪問(wèn)性的知識(shí)圖譜平臺(tái);它的聲明式模型允許業(yè)務(wù)用戶直接參與定義邏輯。
ServiceNow 正在組裝一個(gè)工作流數(shù)據(jù)結(jié)構(gòu)——另一種面向流程的方法。
Databricks 將數(shù)據(jù)智能稱為存在主義，并計(jì)劃超越指標(biāo)和維度，轉(zhuǎn)向完整的流程知識(shí)。其先進(jìn)的代理開(kāi)發(fā)工具將需要更豐富的數(shù)據(jù)智能或與上述供應(yīng)商的合作伙伴關(guān)系才能發(fā)揮其潛力。

保證金和控制權(quán)將累積到捕獲流程和提供代理的層;數(shù)據(jù)基礎(chǔ)設(shè)施雖然不可或缺，但卻成為其背后成本優(yōu)化的基礎(chǔ)。

分叉的企業(yè)軟件世界

現(xiàn)在讓我們關(guān)注企業(yè)軟件如何分裂成兩個(gè)世界。

想象一下最近邦德電影中結(jié)冰的湖面場(chǎng)景：拉米·馬利克飾演的反派毫發(fā)無(wú)傷地站在光滑的水面上，而一名潛水員則在下面寒冷的水中揮舞。這個(gè)比喻捕捉到了企業(yè)軟件如何分裂成兩個(gè)不同的世界。

冰之上是黃綠色的領(lǐng)域：參與系統(tǒng)、情報(bào)和代理系統(tǒng)。這里的供應(yīng)商從實(shí)時(shí)數(shù)字孿生中學(xué)習(xí)業(yè)務(wù)，并推動(dòng)基于結(jié)果的定價(jià)。差異化很高，企業(yè)本身最終將獲得很大一部分價(jià)值，支持供應(yīng)商也參與其中。
冰層之下是數(shù)據(jù)平臺(tái)、存儲(chǔ)格式、圖形處理單元和其他基礎(chǔ)設(shè)施。除非供應(yīng)商擁有近乎壟斷的杠桿率，否則公用事業(yè)費(fèi)率的定價(jià)趨勢(shì)——英特爾公司曾經(jīng)這樣做過(guò)，英偉達(dá)現(xiàn)在可能會(huì)這樣做，超大規(guī)模企業(yè)可能會(huì)在現(xiàn)貨實(shí)例上保持一個(gè)人為的保護(hù)傘。歷史表明，這些雨傘會(huì)隨著時(shí)間的推移而倒塌，使得在這一層脫穎而出變得更加困難。

該行業(yè)正在相應(yīng)地保持一致：冰上層的參與者專注于建模的商業(yè)環(huán)境和更高的利潤(rùn)經(jīng)濟(jì)，而下層的參與者則面臨著越來(lái)越大的商品化壓力。戰(zhàn)略選擇是晉升到以結(jié)果為導(dǎo)向的層級(jí)，或者為基礎(chǔ)設(shè)施壕溝中利潤(rùn)率的收緊做好準(zhǔn)備。

蓬勃發(fā)展的企業(yè)將重新構(gòu)想其業(yè)務(wù)：不鋪平牛道

討論又回到了一個(gè)結(jié)論：擁有連貫的高信號(hào)企業(yè)數(shù)據(jù)是下一波人工智能價(jià)值捕獲的決定性因素。實(shí)驗(yàn)室可能仍然主導(dǎo)著主要模型發(fā)布，但這些模型越來(lái)越依賴只有大型組織才能擁有的專有地面實(shí)況數(shù)據(jù)。

在上面的視覺(jué)效果中，Sam Altman 錨定了左邊——世界著名的粉底模型。Amodei 位于中左翼，證明了對(duì)領(lǐng)域反饋的后期培訓(xùn)可以產(chǎn)生有意義的 ARR。中右翼是每個(gè)人都在追求的獎(jiǎng)品。在我們看來(lái)，企業(yè)的實(shí)時(shí)、可驗(yàn)證的數(shù)字孿生在最右邊由戴蒙代表，他是銀行業(yè)最深層交易賬本的管理者，他完全有能力將孿生武器化，并在保證金和護(hù)城河上挑戰(zhàn)模型實(shí)驗(yàn)室。

關(guān)鍵外賣

構(gòu)建和維護(hù)數(shù)字孿生（人、地點(diǎn)、事物、流程）的企業(yè)最適合收獲人工智能利潤(rùn)池。
這種轉(zhuǎn)變需要的不僅僅是技術(shù);它需要圍繞端到端的客戶成果進(jìn)行重新組織。對(duì)于銀行來(lái)說(shuō)，基準(zhǔn)可能是盡快在合規(guī)方面入職和了解客戶。
這種變化類似于將白領(lǐng)工作從手工藝生產(chǎn)轉(zhuǎn)移到裝配線。組織重新設(shè)計(jì)和數(shù)據(jù)建模齊頭并進(jìn)。

新聞中心