新聞中心

EEPW首頁(yè) > 智能計(jì)算 > 編輯觀點(diǎn) > 杰米·戴蒙如何成為山姆·奧特曼最大的競(jìng)爭(zhēng)對(duì)手

杰米·戴蒙如何成為山姆·奧特曼最大的競(jìng)爭(zhēng)對(duì)手

作者: 時(shí)間:2025-08-05 來(lái)源: 收藏

去年 11 月,我們認(rèn)為摩根大通首席執(zhí)行官杰米·戴蒙 (Jamie Dimon) 坐擁著一個(gè)獨(dú)特?cái)?shù)據(jù)的寶庫(kù),這些數(shù)據(jù)永遠(yuǎn)不會(huì)通過(guò)互聯(lián)網(wǎng)進(jìn)入專有的大型語(yǔ)言模型。因此,他是 首席執(zhí)行官 Sam Altman 的最大競(jìng)爭(zhēng)對(duì)手,因?yàn)樗臄?shù)據(jù)比這些法學(xué)碩士的民主化見(jiàn)解更有價(jià)值。

我們的前提是,基金會(huì)模型公司正在展開(kāi)一場(chǎng)自相殘殺的戰(zhàn)斗,追逐通用人工智能(“彌賽亞 AGI”),而真正的圣杯是我們所說(shuō)的“企業(yè) AGI”——這意味著將 AI 應(yīng)用于企業(yè)內(nèi)部的專有數(shù)據(jù)最終將被證明是最有價(jià)值的經(jīng)濟(jì)努力。今天,我們擴(kuò)展了這一論點(diǎn),并假設(shè)由專有數(shù)據(jù)提供支持的代理和企業(yè)數(shù)字孿生將推動(dòng)下一波人工智能價(jià)值。

在上一集“杰米·戴蒙”中,我們?yōu)樵蛟O(shè)定了一個(gè)框架。在本突破性分析中,我們解釋了摩根大通等企業(yè)將如何以前沿模型供應(yīng)商無(wú)法做到的方式推動(dòng)價(jià)值。我們將檢查我們最初的前提并共享數(shù)據(jù),這些數(shù)據(jù)進(jìn)一步強(qiáng)化了基礎(chǔ)模型供應(yīng)商面臨的挑戰(zhàn),使其成為一項(xiàng)艱巨的業(yè)務(wù)。此外,我們將解釋為什么由數(shù)據(jù)編程的代理最終將在未來(lái)幾年為企業(yè)提供最大的價(jià)值釋放。

三波代理

我們將代理進(jìn)化分為三個(gè)不同的波次,如下所示:

消費(fèi)者代理 – GPT-3/4 時(shí)代的 ChatGPT 讓我們第一次嘗到了個(gè)人數(shù)字助理的滋味。GPT-5 可能會(huì)提供第一個(gè)通用的消費(fèi)級(jí)代理,它可以代表用戶行事,而不僅僅是聊天。

編碼代理 – Anthropic 的 Claude 與 Cursor 配對(duì)展示了當(dāng)您使用強(qiáng)化學(xué)習(xí)進(jìn)行后訓(xùn)練到強(qiáng)大的基礎(chǔ)模型并將其瞄準(zhǔn)軟件工程時(shí)會(huì)發(fā)生什么。代碼是一個(gè)很好的試驗(yàn)場(chǎng),因?yàn)榻Y(jié)果是客觀可測(cè)試的,就像數(shù)學(xué)問(wèn)題一樣。

企業(yè)代理 – 我們相信這是下一個(gè)前沿領(lǐng)域 – 即由業(yè)務(wù)的實(shí)時(shí)數(shù)字孿生提供支持的代理。不是像英偉達(dá)公司的 Omniverse 這樣的工廠等物理事物的數(shù)字孿生,而是企業(yè)。這里的景觀發(fā)生了變化。這不僅僅是更大的模型;我們將解釋新的供應(yīng)商技術(shù)堆棧、新的供應(yīng)商業(yè)務(wù)模式和新的客戶運(yùn)營(yíng)模式。價(jià)值如此之大,以至于即使是杰米·戴蒙(Jamie Dimon)也擁有龐大的資產(chǎn)負(fù)債表和比前沿實(shí)驗(yàn)室所能獲得的有用數(shù)據(jù)多幾個(gè)數(shù)量級(jí)的數(shù)據(jù),也正在踏上山姆·奧特曼的競(jìng)爭(zhēng)環(huán)境。

有了這個(gè)框架,讓我們來(lái)看看為什么從消費(fèi)者/編碼人員代理到企業(yè)代理的跳躍不是線性推斷,以及杰米·戴蒙 (Jamie Dimon) 能夠現(xiàn)實(shí)地挑戰(zhàn) 的領(lǐng)先地位之前,必須實(shí)現(xiàn)哪些新技術(shù)和組織層。

代理 AI 三個(gè)時(shí)代的附加顏色

我們就此主題提出以下補(bǔ)充意見(jiàn):

正如我們之前所討論的,戴蒙是企業(yè)及其四面墻內(nèi)擁有的專有數(shù)據(jù)和專有技術(shù)的代理,而前沿法學(xué)碩士無(wú)法在這些數(shù)據(jù)和專業(yè)知識(shí)上進(jìn)行培訓(xùn)。這就是為什么真正的價(jià)值將來(lái)自企業(yè)將這些數(shù)據(jù)和專業(yè)知識(shí)應(yīng)用于擴(kuò)展前沿法學(xué)碩士或類似的模型,我們將解釋原因。

真正的革命是,我們已經(jīng)從預(yù)訓(xùn)練時(shí)代的縮放定律(即 ChatGPT 和類似產(chǎn)品所基于的 GPT 模型)轉(zhuǎn)向后訓(xùn)練時(shí)代,這是我們開(kāi)始使用強(qiáng)化學(xué)習(xí)的地方。強(qiáng)化學(xué)習(xí)是試錯(cuò)學(xué)習(xí)的一個(gè)奇特術(shù)語(yǔ),對(duì)于試錯(cuò)學(xué)習(xí),你必須能夠從錯(cuò)誤中吸取教訓(xùn)。

  • 它首先在軟件工程代理中工作,因?yàn)榇a提供即時(shí)、客觀的反饋:

    • 您可以運(yùn)行測(cè)試并查看它是否有效 - 您可以編譯它。

    • 它適合程序員的工作流程,無(wú)需進(jìn)行重大更改。

因此,這就是企業(yè)中代理首先起飛的地方。然后我們的論點(diǎn)是,要超越這一點(diǎn),我們將需要一種新型技術(shù)平臺(tái)——企業(yè)數(shù)字孿生。

為了從中獲得真正的價(jià)值,我們將不得不采用一種新的——不僅僅是在數(shù)據(jù)所在的基礎(chǔ)上采用新技術(shù)模型——而是一種新的運(yùn)營(yíng)模式,在這種模式下,公司必須圍繞端到端的結(jié)果進(jìn)行組織,例如吸引新客戶,而不是部門或職能專業(yè)化。

  • 供應(yīng)商影響:

    • 供應(yīng)商必須提供端到端的以流程為中心的數(shù)據(jù)平臺(tái)或數(shù)字孿生。這不是傳統(tǒng)的數(shù)據(jù)平臺(tái)或孤立的應(yīng)用程序。

    • 看來(lái)我們需要開(kāi)放的模型來(lái)使這種試錯(cuò)學(xué)習(xí)正常工作,而這與前沿模型供應(yīng)商的商業(yè)模式不相容。

因此,我們將需要進(jìn)行大量更改。而要點(diǎn)是,與今天 ChatGPT 創(chuàng)造和獲取價(jià)值的時(shí)代相比,杰米·戴蒙(作為領(lǐng)先企業(yè)的代表)和他將要從這個(gè)人工智能時(shí)代中提取的價(jià)值將需要完全不同的腳手架和商業(yè)模式集,就像他這樣的客戶,以及為他提供服務(wù)的供應(yīng)商。


簡(jiǎn)而言之,我們相信這種轉(zhuǎn)變——從訓(xùn)練前規(guī)模到訓(xùn)練后技能,從孤立的工作流程到以結(jié)果為中心的孿生——為企業(yè)人工智能的未來(lái)十年奠定了競(jìng)爭(zhēng)格局。

第 1 波:消費(fèi)者代理

讓我們更深入地研究第一波

GPT3.5 上的 ChatGPT 開(kāi)始了這一切。但 GPT-5 是我們認(rèn)為 ChatGPT 作為通用消費(fèi)者代理的真正價(jià)值開(kāi)始的地方。 自己的收入預(yù)測(cè)(下面的紅虛線)將從 2024 年的低單十億美元攀升至 2027 年的 500 億>美元——許多人認(rèn)為這條增長(zhǎng)曲線威脅到谷歌搜索——我們將拭目以待。

上面的紅色標(biāo)注很有啟發(fā)性,因?yàn)樵?GPT-5 級(jí)代理從很酷的演示轉(zhuǎn)變?yōu)楸貍涞膫€(gè)人助理之前,必須進(jìn)行警告、技術(shù)重新布線和商業(yè)模式更改。具體說(shuō)來(lái):

三十年前,投資者將商業(yè)互聯(lián)網(wǎng)譽(yù)為歷史上最偉大的合法財(cái)富創(chuàng)造。今天,我們聽(tīng)到同樣宏偉的聲明,即生成式人工智能超越了火、車輪和電力。GPT-5 可能會(huì)證明這種夸張的很大一部分是合理的。通過(guò)統(tǒng)一多模態(tài)推理——語(yǔ)音、視頻、工具使用、研究、代碼執(zhí)行——OpenAI 準(zhǔn)備推出第一個(gè)真正的全棧消費(fèi)者代理,這是任何歷史標(biāo)準(zhǔn)的重磅產(chǎn)品。

但從頭條新聞到習(xí)慣的飛躍需要多個(gè)方面的劇變:

  • 技術(shù)基礎(chǔ)設(shè)施

    • 網(wǎng)絡(luò)是為人類而構(gòu)建的;爬蟲(chóng)只是索引頁(yè)面,以便人們可以閱讀它們。我們需要一個(gè)重新連接的 Web,以實(shí)現(xiàn)自主導(dǎo)航、微交易、新的安全軌道和代理友好的支付流程。

    • 關(guān)于每篇文章小額支付的提案正在出現(xiàn),以便代理商可以合法地實(shí)時(shí)攝取優(yōu)質(zhì)內(nèi)容。然而,美國(guó)的公共政策似乎出于競(jìng)爭(zhēng)原因(例如中國(guó))而削減了這些提議。

  • 商業(yè)模式重新布線

    • 發(fā)布者必須從搜索引擎優(yōu)化轉(zhuǎn)向代理引擎優(yōu)化。

    • 電子商務(wù)目錄必須公開(kāi)代理(而不是眼球)可以解析和作的元數(shù)據(jù)。

    • 營(yíng)銷從影響人類購(gòu)物者轉(zhuǎn)變?yōu)橛绊懜鶕?jù)政策和偏好規(guī)則篩選選項(xiàng)的機(jī)器人。

  • 歷史先例

    • 在 1990 年代后期,熱情領(lǐng)先于寬帶建設(shè)和可行的收入模式;人工智能在承諾和基礎(chǔ)之間也面臨著類似的差距。

標(biāo)題是 GPT-5 可以引發(fā)消費(fèi)者的大規(guī)模采用,但廣泛的價(jià)值捕獲取決于重新管道網(wǎng)絡(luò)和重新貨幣化內(nèi)容。這還沒(méi)有解決企業(yè)部署特有的額外障礙,這些障礙具有自己的技術(shù)、治理和運(yùn)營(yíng)模式需求。

法學(xué)碩士的經(jīng)濟(jì)學(xué)是殘酷的

在我們對(duì) GPT-5 過(guò)于興奮之前,讓我們先看看殘酷的規(guī)模經(jīng)濟(jì)學(xué)。下面的數(shù)據(jù)講述了一個(gè)大故事。

右上圖:那條“縮放律”線(X 軸上用于預(yù)訓(xùn)練的計(jì)算 petaflops 對(duì)數(shù),Y 軸上測(cè)試損失對(duì)數(shù),這是一種描述準(zhǔn)確性和識(shí)別更精細(xì)模式的能力的奇特方式)穩(wěn)步向下移動(dòng)——但每一英寸的改進(jìn)都需要計(jì)算的 PF 日(petaflop-days)數(shù)量級(jí)跳躍。

讓我們來(lái)解開(kāi)上述數(shù)字的來(lái)源。

在上面的幻燈片上,左軸顯示了每代的估計(jì)訓(xùn)練成本;右軸繪制相應(yīng)的測(cè)試損耗改進(jìn)。GPT-3 級(jí)模型的 3500 萬(wàn)美元大關(guān)是共同的參考點(diǎn)。每一代都需要大約 10 倍到 30 倍的訓(xùn)練 FLOP 增加,但在算法和硬件效率提高之后,總現(xiàn)金支出仍然在每個(gè)周期增長(zhǎng)約 5 到 10 倍。數(shù)字通??雌饋?lái)較小,因?yàn)樗鼈冎挥涗浟俗詈髢扇齻€(gè)月的生產(chǎn)運(yùn)行。這解釋了 DeepSeek 報(bào)告的 600 萬(wàn)美元成本的混亂;該圖省略了研究運(yùn)行、數(shù)據(jù)消融實(shí)驗(yàn)和重啟,這些實(shí)驗(yàn)甚至在最后一次開(kāi)始之前就消耗了三到十倍的計(jì)算量。

幻燈片的曲線使第二個(gè)點(diǎn)變得清晰。每次支出的增加只會(huì)帶來(lái)測(cè)試損失的增量下降——更好的預(yù)測(cè)準(zhǔn)確性、更可靠的答案、更精細(xì)的模式檢測(cè)。僅在預(yù)訓(xùn)練上保持同步,就已經(jīng)將單次下一代運(yùn)行的成本推高至 100 億美元。在那個(gè)水平上,市場(chǎng)無(wú)法維持許多參與者,除非他們?cè)诨灸P椭咸砑右粋€(gè)高度差異化的層。即將到來(lái)的高質(zhì)量訓(xùn)練數(shù)據(jù)瓶頸和激烈的競(jìng)爭(zhēng)將擠壓原始應(yīng)用程序編程接口訪問(wèn)的任何價(jià)格溢價(jià)的幅度和壽命。

強(qiáng)化學(xué)習(xí)可以通過(guò)開(kāi)辟新的縮放向量來(lái)解決收益遞減定律。推理時(shí)間“推理”開(kāi)辟了擴(kuò)展的另一個(gè)維度。但預(yù)訓(xùn)練基礎(chǔ)仍需不斷推進(jìn)。這意味著在前沿模型層發(fā)揮的資本強(qiáng)度繼續(xù)呈指數(shù)級(jí)增長(zhǎng)。只要終端市場(chǎng)繼續(xù)以類似的速度增長(zhǎng),攤銷預(yù)培訓(xùn)的經(jīng)濟(jì)性就有效。但是當(dāng)市場(chǎng)增長(zhǎng)放緩時(shí),當(dāng)音樂(lè)停止時(shí),預(yù)培訓(xùn)的成本將看起來(lái)像一場(chǎng)音樂(lè)椅游戲。

撞上數(shù)據(jù)墻:數(shù)據(jù)稀缺和合成數(shù)據(jù)挑戰(zhàn)

到目前為止,我們一直關(guān)注計(jì)算成本,但我們需要討論一個(gè)同樣殘酷的限制,那就是我們正在耗盡免費(fèi)、高質(zhì)量的人工文本。

上圖跟蹤了可用互聯(lián)網(wǎng)代幣的“有效存量”(綠色帶)與前沿模型消耗的數(shù)據(jù)集的預(yù)計(jì)大?。ㄋ{(lán)色帶)。這兩條曲線在 2027-28 年左右相遇——這意味著模型改進(jìn)的每一個(gè)額外點(diǎn)都需要新的策略。

不過(guò),我們應(yīng)該指出,合成數(shù)據(jù)很容易用計(jì)算機(jī)代碼生成,因?yàn)槟梢詫?duì)其進(jìn)行測(cè)試,因此,合成數(shù)據(jù)現(xiàn)在包含更多信號(hào)。它有效嗎?它不起作用嗎?你有各種各樣的測(cè)試,這就是為什么正如我們將看到的,編碼代理首先起飛。但是,正如我們將要展示的那樣,試圖越過(guò)這堵數(shù)據(jù)墻的第一種方法是使用人類生成的推理跟蹤,即您基本上可以讓不同領(lǐng)域的廣泛專家嘗試并詳細(xì)闡述他們的問(wèn)題解決策略,以找到如何解決特定領(lǐng)域問(wèn)題的解決方案, 而且這非常昂貴。因此:

模型供應(yīng)商將看到他們用于訓(xùn)練數(shù)據(jù)的銷售成本大幅上升。根據(jù)公共政策的態(tài)勢(shì),他們可能必須付費(fèi)才能獲得專有發(fā)布者數(shù)據(jù)的許可。正如我們?cè)谧罱膩嗰R遜/紐約時(shí)報(bào)交易中看到的那樣,這些交易已經(jīng)開(kāi)始。這是眾多事件中的第一個(gè)還是高水位線還有待觀察。

更重要的是,模型供應(yīng)商將不得不從更多領(lǐng)域的人類專家那里獲取更復(fù)雜的問(wèn)題集和“推理痕跡”。這就是 Scale.ai 等數(shù)據(jù)供應(yīng)商專門從事采購(gòu)的領(lǐng)域。

Scale AI 的 Alex Wang 表示,下一個(gè)突破取決于人類注釋的思維鏈,而不僅僅是更多抓取的文本散文。在該深度進(jìn)行注釋既昂貴又緩慢。這是下一個(gè)瓶頸。這種類型的數(shù)據(jù)稀缺重塑了預(yù)訓(xùn)練前沿模型的經(jīng)濟(jì)性。據(jù)報(bào)道,這就是為什么 Meta 斥資 ~150 億美元購(gòu)買 Scale.ai 專家網(wǎng)絡(luò) 50% 的股份。

Wang提出的一個(gè)關(guān)鍵觀點(diǎn)是:“數(shù)據(jù)生產(chǎn)將是未來(lái)人工智能系統(tǒng)的命脈”,他強(qiáng)調(diào)了人的因素——這就是 Meta 斥資 150 億美元收購(gòu) Alex 的原因。

Alex Wang 評(píng)論的一些附加背景:數(shù)據(jù)生產(chǎn)與香料生產(chǎn)非常相似;它將成為未來(lái)人工智能系統(tǒng)的命脈。最優(yōu)秀、最聰明的人是命脈的關(guān)鍵來(lái)源之一,但專有數(shù)據(jù)同樣重要。僅摩根大通就擁有數(shù)百 PB 的數(shù)據(jù),而 GPT-4 的訓(xùn)練數(shù)據(jù)不到 1 PB。企業(yè)和政府擁有的專有數(shù)據(jù)比輸入前沿模型時(shí)要多幾個(gè)數(shù)量級(jí),而這些數(shù)據(jù)庫(kù)可以為下一波真正的精英系統(tǒng)提供動(dòng)力。

懸而未決的問(wèn)題是合成數(shù)據(jù)的作用。最合理的路徑是人類與人工智能的混合生成:人工智能處理批量創(chuàng)建,而領(lǐng)域?qū)<遥ň哂猩詈裢评砟芰Φ娜耍﹦t注入高保真更正和見(jiàn)解?;旌先祟?人工智能數(shù)據(jù)是實(shí)現(xiàn)未來(lái)模型所需的極致質(zhì)量和細(xì)微差別的唯一途徑。

Meta 報(bào)道的 Scale AI 交易價(jià)值 150 億美元,凸顯了這一現(xiàn)實(shí)。此次收購(gòu)與其說(shuō)是關(guān)于工具,不如說(shuō)是聯(lián)系 Alex Wang、一小群專家以及 Scale 跨多個(gè)領(lǐng)域的專家標(biāo)簽師網(wǎng)絡(luò)。人類專家推理痕跡已成為前沿實(shí)驗(yàn)室的新瓶頸。實(shí)際上,這些公司正在呼吁提供愛(ài)國(guó)數(shù)據(jù),以便其他人都能受益,因?yàn)槿绻麤](méi)有這些經(jīng)過(guò)人類驗(yàn)證的痕跡,大型語(yǔ)言模型將停滯在目前的上限。

“數(shù)據(jù)共產(chǎn)主義”

Alex Wang 評(píng)論中有趣的部分是,他基本上是在呼吁各個(gè)領(lǐng)域的專家為造福人類“貢獻(xiàn)”他們的專業(yè)知識(shí)。Scale 為這些專家的時(shí)間支付了費(fèi)用,但仍然是小時(shí)工資勞動(dòng)。

半開(kāi)玩笑的標(biāo)題,“各盡其能,各取所需”是卡爾·馬克思經(jīng)濟(jì)哲學(xué)的核心。如果你瞇著眼睛看,這聽(tīng)起來(lái)很像 Alex Wang 的提議:主題專家為模型訓(xùn)練貢獻(xiàn)他們的知識(shí),造福人類。

在以 150 億美元收購(gòu)后,亞歷克斯·王 (Alex Wang) 可能成為歷史上最富有的共產(chǎn)黨人。

為什么編碼是一個(gè)如此強(qiáng)大的用例

在企業(yè)中,有一個(gè)非常具體的用例已經(jīng)起飛,并給出了支持前沿模型訓(xùn)練的各種跡象。為什么編碼如此受歡迎?為什么軟件工程代理是企業(yè)中的第一個(gè)殺手級(jí)應(yīng)用程序?

讓我們深入了解一下。

下圖頂部的面孔是 Anthropic PBC 首席執(zhí)行官 Dario Amodei,他的 Claude 模型為 Cursor 產(chǎn)品提供支持——軟件工程代理。Cursor 只是許多軟件工程代理中的一個(gè)典型例子。

我們?nèi)匀惶幱谙嗤闹悄茈S時(shí)間變化曲線上,在 ChatGPT 消費(fèi)者激增之后,我們看到一個(gè)標(biāo)記為“Claude + Cursor SWE Agents”的新階梯函數(shù)。左邊的收入表——發(fā)布時(shí)為 100 萬(wàn)美元,第 12 個(gè)月為 1 億美元,第 24 個(gè)月為 3 億美元,第 30 個(gè)月為 5 億美元——說(shuō)明了采用速度有多快。

是什么讓編碼特別適合早期企業(yè)代理的成功,在我們將這種模型推廣到反饋信號(hào)不那么清晰的財(cái)務(wù)、供應(yīng)鏈或客戶服務(wù)領(lǐng)域之前,還存在哪些障礙?下面的評(píng)論提供了答案:

試錯(cuò)學(xué)習(xí)(正式術(shù)語(yǔ)的強(qiáng)化學(xué)習(xí))解釋了軟件工程代理的突破性成功。與消耗 15 萬(wàn)億個(gè)數(shù)據(jù)令牌的基礎(chǔ)模型不同,編碼代理生成自己的數(shù)據(jù)。它提出解決方案,運(yùn)行測(cè)試并立即從通過(guò)或失敗的反饋中學(xué)習(xí)。該循環(huán)提供無(wú)窮無(wú)盡的合成數(shù)據(jù)和內(nèi)在獎(jiǎng)勵(lì)信號(hào),無(wú)需大量專有數(shù)據(jù)集。同樣重要的是,該工作流程可以整齊地融入成熟的開(kāi)發(fā)人員工具中,因此采用無(wú)需進(jìn)行組織手術(shù)。

這些條件使軟件工程成為人工智能代理的天然灘頭陣地。Cursor 是標(biāo)志性的參考點(diǎn),但數(shù)十種類似的工具正在快速擴(kuò)展,幾乎所有工具都被 Anthropic 的 Claude 前沿模型作為首選引擎。大多數(shù)產(chǎn)品都專注于編寫全新的代碼或語(yǔ)言之間的翻譯;遺留代碼庫(kù)的大規(guī)模重構(gòu)是一個(gè)更難的問(wèn)題,并且在很大程度上仍未得到開(kāi)發(fā)。軟件和數(shù)學(xué)領(lǐng)域的成功不會(huì)自動(dòng)移植到其他企業(yè)領(lǐng)域,在這些領(lǐng)域中,等效的高保真反饋循環(huán)更難構(gòu)建——我們將在后續(xù)幻燈片中探討這一挑戰(zhàn)。

量化軟件工程和數(shù)學(xué)為何大放異彩

讓我們更深入地挖掘?yàn)槭裁?SWE 和數(shù)學(xué)是這樣的好例子。下圖跟蹤了過(guò)去五年中一籃子“智力”基準(zhǔn)(小學(xué)數(shù)學(xué)、競(jìng)爭(zhēng)性數(shù)學(xué)、軟件工程任務(wù)套件、多科目考試)的準(zhǔn)確性。Y 軸是基準(zhǔn)精度;X 軸是日歷年。一切都蜿蜒向上,直到 2024 年的某個(gè)時(shí)候,然后紅色框顯示出近乎垂直的激增。發(fā)生了什么變化?在已經(jīng)很強(qiáng)大的基礎(chǔ)模型之上進(jìn)行訓(xùn)練后強(qiáng)化學(xué)習(xí)。

在預(yù)訓(xùn)練時(shí)代(基本上到 2024 年年中),數(shù)據(jù)效率并不高,依賴于抓取大量但有限的免費(fèi)互聯(lián)網(wǎng)文本庫(kù)。一旦這些井開(kāi)始干涸,進(jìn)度就會(huì)遞減回報(bào)。拐點(diǎn)出現(xiàn)在 2024 年底,當(dāng)時(shí)訓(xùn)練后時(shí)代已經(jīng)到來(lái)。試錯(cuò)學(xué)習(xí),即強(qiáng)化學(xué)習(xí),允許模型生成候選輸出,自主驗(yàn)證它們,并根據(jù)正確或錯(cuò)誤的信號(hào)更新權(quán)重。數(shù)學(xué)和編碼的基準(zhǔn)測(cè)試幾乎立即做出反應(yīng),以近乎垂直的速度攀升。

該機(jī)制很簡(jiǎn)單:代理檢查自己的工作;如果測(cè)試通過(guò),梯度會(huì)強(qiáng)化該解決方案。如果失敗,則模型進(jìn)行調(diào)整。該循環(huán)無(wú)需數(shù)萬(wàn)億個(gè)新代幣即可帶來(lái)巨大的收益。這兩個(gè)領(lǐng)域都提供了一個(gè)直接的、明確的獎(jiǎng)勵(lì)信號(hào)——代碼編譯或不編譯,或者通過(guò)單元測(cè)試或未通過(guò);數(shù)學(xué)要么是對(duì)的,要么是錯(cuò)的——所以智能體可以作為客觀的驗(yàn)證工具,重試和學(xué)習(xí)。這種緊密的循環(huán)意味著你不需要另外 10 萬(wàn)億個(gè)預(yù)訓(xùn)練數(shù)據(jù)令牌;你只需要一個(gè)可驗(yàn)證的獎(jiǎng)勵(lì)。

但該捕獲物在圖形右側(cè)標(biāo)出。該秘訣尚未推廣到法律推理或財(cái)務(wù)預(yù)測(cè)等,在這些預(yù)測(cè)中,基本事實(shí)是模糊的、延遲的或埋沒(méi)在人類的判斷中。

推廣該技術(shù)仍然是一個(gè)懸而未決的挑戰(zhàn)。兩條路徑正在出現(xiàn):

  • 難以驗(yàn)證的領(lǐng)域 – 答案缺乏二進(jìn)制通過(guò)/失敗的領(lǐng)域必須依靠第二個(gè) LLM 來(lái)批評(píng)輸出,評(píng)估正確性的各個(gè)方面并提供結(jié)構(gòu)化反饋。這種方法是可行的,但要困難得多。

  • 新的可驗(yàn)證領(lǐng)域 – 能夠提供客觀獎(jiǎng)勵(lì)信號(hào)的領(lǐng)域,例如在高保真數(shù)字孿生中建模的領(lǐng)域,應(yīng)該會(huì)產(chǎn)生與數(shù)學(xué)和編碼相當(dāng)?shù)倪M(jìn)步。數(shù)字孿生的討論將在后續(xù)部分中進(jìn)行。

關(guān)鍵的一點(diǎn)是,一旦一個(gè)領(lǐng)域提供了自動(dòng)驗(yàn)證器,訓(xùn)練后的效率就會(huì)爆炸式增長(zhǎng)?,F(xiàn)在的競(jìng)賽是識(shí)別或構(gòu)建軟件和數(shù)學(xué)之外的可驗(yàn)證環(huán)境。

可能會(huì)有一種生成合成數(shù)據(jù)的新方法,可以讓我們克服數(shù)據(jù)瓶頸和客觀可驗(yàn)證獎(jiǎng)勵(lì)的挑戰(zhàn)——這是在王兌現(xiàn)支票后不久出現(xiàn)的。它與試錯(cuò)學(xué)習(xí)(一個(gè)花哨的術(shù)語(yǔ)是強(qiáng)化學(xué)習(xí))和模型有關(guān),這些模型可以在沒(méi)有人類參與的情況下驗(yàn)證主觀而非客觀的答案。換句話說(shuō),我們可能有辦法繞過(guò)人類專家注釋者詳細(xì)說(shuō)明他們的推理,從而得出正確的答案。

GPT5 或不久之后的升級(jí)似乎將嘗試生成專家問(wèn)題、答案和推理軌跡的某種組合以獲得答案。另一個(gè)模型,就像老師或驗(yàn)證者一樣,將對(duì)正確答案和推理痕跡進(jìn)行評(píng)分。這樣,模型可能能夠像學(xué)習(xí)數(shù)學(xué)和編碼一樣,走上陡峭的學(xué)習(xí)曲線,獲得更主觀的答案。

軟件工程是超越消費(fèi)者代理的下一波浪潮

憑借可驗(yàn)證的獎(jiǎng)勵(lì),SWE 代理的改進(jìn)速度比通用底層模型快得多。一旦你將強(qiáng)化學(xué)習(xí)注入到可靠的獎(jiǎng)勵(lì)信號(hào)中,進(jìn)步就會(huì)呈指數(shù)級(jí)增長(zhǎng)。

在下圖上,Y 軸繪制了“任務(wù)長(zhǎng)度”(想想:人類需要的掛鐘工作)。平緩的綠色斜率(七個(gè)月的節(jié)奏)被右側(cè)的藍(lán)色趨勢(shì)線所掩蓋——每 70 天將時(shí)間范圍減半。

左圖(METR 數(shù)據(jù))。在通用代理基準(zhǔn)測(cè)試中,人工智能在沒(méi)有人工牽手的情況下可以完成的任務(wù)長(zhǎng)度大約每七個(gè)月翻一番。GPT-2 可以回答一個(gè)瑣事問(wèn)題;GPT-4o 可以花費(fèi) ~15 分鐘自主優(yōu)化定制芯片的代碼。

這張幻燈片隔離了代理自我改進(jìn)的核心問(wèn)題。對(duì)于廣泛、松散驗(yàn)證的任務(wù),唯一的提升來(lái)自基本模型的通用增益和偶爾的評(píng)估周期——大約每七個(gè)月自動(dòng)任務(wù)長(zhǎng)度就會(huì)增加一倍。相比之下,軟件開(kāi)發(fā)代理在運(yùn)行時(shí)發(fā)出硬獎(jiǎng)勵(lì)信號(hào):他們要么通過(guò)單元測(cè)試,要么不通過(guò)。這種可驗(yàn)證的反饋推動(dòng)強(qiáng)化學(xué)習(xí),每 70 天使任務(wù)復(fù)雜性翻一番。這里的指標(biāo)很簡(jiǎn)單,即代理可以在沒(méi)有人工干預(yù)的情況下運(yùn)行多長(zhǎng)時(shí)間。更尖銳的斜率證明,硬的二元獎(jiǎng)勵(lì)信號(hào)可以將學(xué)習(xí)速度提高一個(gè)數(shù)量級(jí)。這是重要的要點(diǎn)。

探索支撐模型的殘酷經(jīng)濟(jì)學(xué)

在加冕一個(gè)模型之王之前,讓我們先看看代理人工智能產(chǎn)品興起背后模型的殘酷經(jīng)濟(jì)學(xué)。在下圖中,Y 軸是綜合基準(zhǔn)分?jǐn)?shù);每個(gè)彩色步驟代表一個(gè)新的肖像權(quán)授權(quán)書。暗線突出了 OpenAI 的領(lǐng)先模型,該模型本身會(huì)發(fā)生變化(每個(gè)方點(diǎn)都會(huì)發(fā)生變化),以及競(jìng)爭(zhēng)對(duì)手的快速追趕(其他彩色線)。

階梯圖繪制了過(guò)去 24 個(gè)月中來(lái)自 OpenAI、Anthropic、Google、Meta、DeepSeek、阿里巴巴等的前沿模型的獨(dú)立“人工智能智能指數(shù)”。

  • 垂直跳躍(紅色 CAG 標(biāo)注)標(biāo)志著競(jìng)爭(zhēng)優(yōu)勢(shì)差距——一個(gè)版本領(lǐng)先于其他版本的飛躍程度。

  • 水平線顯示 CAP(競(jìng)爭(zhēng)優(yōu)勢(shì)期)——在競(jìng)爭(zhēng)對(duì)手追趕之前領(lǐng)先優(yōu)勢(shì)持續(xù)多長(zhǎng)時(shí)間。

最突出的是這兩個(gè)維度都變得多么小。GPT-4o 處于領(lǐng)先地位,但在幾周內(nèi),DeepSeek R1 或 Gemini 3 縮小了差距。API 之間的切換成本是用幾行 Python 代碼來(lái)衡量的,因此 CAP 會(huì)隨著每個(gè)版本的發(fā)布而縮短。換句話說(shuō),你可以在計(jì)算和數(shù)據(jù)上花費(fèi) 10 億美元,只是為了在市場(chǎng)將你的優(yōu)勢(shì)降低到零之前享受六周的定價(jià)保護(hù)傘。

關(guān)鍵是,在前沿訓(xùn)練運(yùn)行上花費(fèi) 100 億美元和多年時(shí)間不再保證持久的優(yōu)勢(shì)。當(dāng)新模型登陸的那一刻,競(jìng)爭(zhēng)領(lǐng)先優(yōu)勢(shì)幾乎可以像新的消費(fèi)電子產(chǎn)品周期一樣迅速消失。與制藥行業(yè)不同——專利保護(hù)確保了十年的排他性——模型訓(xùn)練沒(méi)有可比的護(hù)城河。

當(dāng)前的競(jìng)賽圍繞著越來(lái)越大的計(jì)算集群和漸進(jìn)式算法調(diào)整展開(kāi)。任何擁有足夠資本的公司都可以獲得硬件規(guī)模;算法見(jiàn)解通過(guò)開(kāi)放研究和員工流動(dòng)迅速傳播。專有的訓(xùn)練數(shù)據(jù)有幫助,但它只是一個(gè)組成部分,很少是決定性的。為了實(shí)現(xiàn)巨大的競(jìng)爭(zhēng)優(yōu)勢(shì)差距和持久的競(jìng)爭(zhēng)優(yōu)勢(shì)期,游戲規(guī)則必須改變。下一個(gè)時(shí)代將需要一個(gè)完全不同的數(shù)據(jù)基礎(chǔ),一個(gè)能夠賦予持續(xù)、可防御優(yōu)勢(shì)的數(shù)據(jù)基礎(chǔ)。這個(gè)基礎(chǔ)就是以下部分中討論的企業(yè)數(shù)字孿生。

為了戲弄最后一部分,Jamie Dimon 和任何其他可以將其數(shù)據(jù)建模為運(yùn)營(yíng)數(shù)字孿生的企業(yè)都可以訓(xùn)練具有非常高的 CAG 和持久 CAP 的專有代理。所有的資本支出可能都投入到六個(gè)或更多的前沿實(shí)驗(yàn)室,但可持續(xù)的差異化將在于這些企業(yè)。

Messiah AGI 的定價(jià)模型

現(xiàn)在讓我們探討一下這種動(dòng)態(tài)如何體現(xiàn)在底層前沿模型的定價(jià)模型中。下圖說(shuō)明了這一點(diǎn)。這就是這些優(yōu)勢(shì)窗口縮小背后的殺手锏:代幣價(jià)格處于自由落體狀態(tài)。Y 軸是每百萬(wàn)個(gè)代幣的對(duì)數(shù)尺度價(jià)格(從 100 美元到亞美分)。X 軸跨度為 2021 年 10 月至 2025 年 4 月。每條對(duì)角線都顯示了連續(xù)的車型發(fā)布,每隔幾個(gè)月就會(huì)降低一個(gè)數(shù)量級(jí)的價(jià)格。

因此,每百萬(wàn)個(gè)代幣相對(duì)于發(fā)布日期。每條彩色趨勢(shì)線都是不同的功能層 - GPT-3.5 類(青色)、GPT-4 類(粉紅色)、GPT-4o-plus(藍(lán)色)。無(wú)論級(jí)別如何,價(jià)格都在呈指數(shù)級(jí)下降:

  • 隨著每一代新車型的出現(xiàn),坡度都變得越來(lái)越陡

  • GPT3.5 Turbo級(jí)車型價(jià)格每年下降9次

  • GPT4 類模型價(jià)格每年下降 40 次

  • GPT4o 類模型的價(jià)格以每年 900 次的速度下降。

換句話說(shuō),你可以在 GPT-6 訓(xùn)練上燃燒 100 億美元,并觀察市場(chǎng)在一個(gè)季度內(nèi)以一小部分利潤(rùn)重新定價(jià)該產(chǎn)出。為 API 的客戶投入最低的轉(zhuǎn)換成本,您就會(huì)明白情況。關(guān)鍵是,打包的代理——與專有數(shù)據(jù)和工作流程上下文捆綁在一起——是我們認(rèn)為持久經(jīng)濟(jì)性將存在的地方。

API 定價(jià)的加速崩潰與建立在基礎(chǔ)上的產(chǎn)品的經(jīng)濟(jì)性截然不同。風(fēng)險(xiǎn)投資正以前所未有的速度涌入前沿實(shí)驗(yàn)室。民族國(guó)家基金正在為國(guó)內(nèi)模式工作提供資金,中國(guó)實(shí)驗(yàn)室正在激增,知名參與者——埃隆·馬斯克(Elon Musk)就是其中之一——正在爭(zhēng)先恐后地加入競(jìng)爭(zhēng)。與 90 年代末互聯(lián)網(wǎng)泡沫的相似之處是不容忽視的——數(shù)百億美元的人追逐越來(lái)越像海市蜃樓的東西。

如今,消費(fèi)者代理的桂冠已經(jīng)掌握在現(xiàn)任領(lǐng)導(dǎo)者手中,領(lǐng)先的 API 位置屬于 Anthropic。持久的差異化不會(huì)來(lái)自另一輪資本密集型模型訓(xùn)練;它將來(lái)自做一些真正不同的事情。這種必要性迎來(lái)了下一個(gè)時(shí)代,在這個(gè)時(shí)代,優(yōu)勢(shì)轉(zhuǎn)移到差異化的數(shù)據(jù)基礎(chǔ)和特定領(lǐng)域的代理平臺(tái)。

第三個(gè)時(shí)代:企業(yè)代理

讓我們回到人工智能的三個(gè)時(shí)代。

我們已經(jīng)繞了一圈:消費(fèi)者聊天機(jī)器人讓我們開(kāi)始了,編碼代理被證明是一個(gè)飛輪,但在我們看來(lái),企業(yè)代理才是真正的資金和長(zhǎng)期護(hù)城河的所在。想想三個(gè)離散時(shí)代的軌跡,映射在你整集看到的曲線上:

  1. 預(yù)訓(xùn)練時(shí)代——消費(fèi)者代理。ChatGPT 展示了該產(chǎn)品的強(qiáng)大程度,但底層模型 API 的收入受到代幣價(jià)格暴跌和低轉(zhuǎn)換成本的限制。

  2. 后訓(xùn)練時(shí)代——編碼代理。Claude-plus-Cursor 在可驗(yàn)證的輸出上驗(yàn)證了 RL,每 70 天將任務(wù)復(fù)雜性翻一番,并將年度經(jīng)常性收入推向新的規(guī)模。

  3. 數(shù)字孿生時(shí)代——企業(yè)代理。

核心要點(diǎn)是人工智能是由數(shù)據(jù)編程的,真正的持久差異化將來(lái)自專有數(shù)據(jù)。將摩根大通視為任何先進(jìn)企業(yè)的替代品。初步估計(jì)其私有語(yǔ)料庫(kù)約為 150 PB,已經(jīng)是用于訓(xùn)練 GPT-4 級(jí)模型的半 PB 至 1 PB 的數(shù)百倍。最近的數(shù)據(jù)表明,該銀行可能會(huì)保持在艾字節(jié)的數(shù)量級(jí)。然而,交易量本身并不是故事;這是數(shù)據(jù)建模以代表日常運(yùn)營(yíng)的方式。企業(yè)數(shù)據(jù)密集、高信號(hào),如果組織得當(dāng),比為前沿模型提供信息的廣泛、低信號(hào)抓取要豐富得多。

釋放這種價(jià)值需要幾個(gè)轉(zhuǎn)變:

  • 掌握強(qiáng)化學(xué)習(xí):試錯(cuò)循環(huán),能夠持續(xù)改進(jìn)實(shí)時(shí)業(yè)務(wù)任務(wù)。

  • 新的數(shù)據(jù)基礎(chǔ):跟蹤人、地點(diǎn)、事物和活動(dòng)的數(shù)字孿生。這種以流程為中心的模型突破了六十年的應(yīng)用程序和數(shù)據(jù)孤島;它不僅僅是一個(gè)更大的湖泊。

  • 開(kāi)放式型號(hào)。早期證據(jù)表明,當(dāng)?shù)讓訖?quán)重可訪問(wèn)時(shí),強(qiáng)化學(xué)習(xí)效果最佳,這一要求與大多數(shù)前沿實(shí)驗(yàn)室的封閉 API 商業(yè)模式相沖突。米拉·穆拉蒂 (Mira Murati) 的思維機(jī)器 (Thinking Machines) 的努力似乎是調(diào)和開(kāi)放性與商業(yè)可行性的一條道路。

這些元素將引發(fā)新的上市運(yùn)動(dòng)、新一代應(yīng)用程序平臺(tái)供應(yīng)商、改進(jìn)的技術(shù)堆棧,并最終為采用它們的企業(yè)帶來(lái)組織和業(yè)務(wù)模式的變化。

設(shè)想“企業(yè)通用人工智能”

讓我們深入研究一下企業(yè) AGI 的實(shí)際面貌。下面是許多人用來(lái)描述代理人工智能要素的經(jīng)典圖表——但在我們看來(lái),缺少為企業(yè)提供動(dòng)力的關(guān)鍵部分。

大多數(shù)代理圖看起來(lái)都是一樣的——左邊的工具——日歷、計(jì)算器、代碼解釋器、搜索;右邊的認(rèn)知模塊——計(jì)劃、反思、自我批評(píng)、思維鏈、子目標(biāo)分解;頂部的內(nèi)存堆棧;底部有一個(gè)動(dòng)作端口。整個(gè)畫面都是以算法為中心的,因?yàn)檫@是計(jì)算機(jī)科學(xué)研究人員的獎(jiǎng)勵(lì)。數(shù)據(jù)幾乎不會(huì)出現(xiàn),但在企業(yè)中,數(shù)據(jù)就是一切。

這個(gè)特殊的圖表——借用了斯坦福大學(xué)最近的一次計(jì)算機(jī)科學(xué)講座——省略了實(shí)際創(chuàng)造價(jià)值的組成部分——環(huán)境或世界模型。代理只能通過(guò)與其環(huán)境交互并接收有關(guān)結(jié)果的反饋來(lái)學(xué)習(xí)。在學(xué)術(shù)環(huán)境中,這種遺漏是事后才想到的;在商業(yè)環(huán)境中,它是玩具和可以轉(zhuǎn)移收入、成本或風(fēng)險(xiǎn)的系統(tǒng)之間的區(qū)別。

主流智能體思維中缺乏一流的數(shù)據(jù)層,這凸顯了為什么企業(yè)智能體仍然是一個(gè)未被充分探索的前沿領(lǐng)域。這種顛覆正讓整個(gè)行業(yè)面臨著面對(duì),但很少有人承認(rèn)這一點(diǎn),因?yàn)閷?duì)話是由算法英雄而不是數(shù)據(jù)現(xiàn)實(shí)主義主導(dǎo)的。

游戲示例具有指導(dǎo)意義

讓我們從代理開(kāi)始的真實(shí)模型中提取一些示例。

在我們對(duì)企業(yè)數(shù)字孿生這個(gè)詞進(jìn)行太多自由之前,記住對(duì)人工智能研究人員來(lái)說(shuō)重要的第一個(gè)孿生是在游戲中看到的。DeepMind 的 AlphaStar 學(xué)會(huì)主宰《星際爭(zhēng)霸 II》不僅因?yàn)樗哪P图軜?gòu)很神奇,還因?yàn)檎麄€(gè)游戲環(huán)境——單位、資源、時(shí)間和戰(zhàn)爭(zhēng)迷霧的 4D 地圖——被曝光為一個(gè)完美的、實(shí)時(shí)的、真實(shí)世界的模型。

在下圖中,我們?cè)?X 軸上顯示了匹配評(píng)分或 MMR 百分位數(shù),在 Y 軸上顯示了技能水平。藍(lán)色曲線是人類從白銀到特級(jí)大師的進(jìn)步;紅點(diǎn)是 AlphaStar 突破最高百分位數(shù)——通過(guò)強(qiáng)化學(xué)習(xí)數(shù)字孿生發(fā)現(xiàn)了人類從未嘗試過(guò)的策略。

關(guān)鍵的見(jiàn)解是將游戲世界中的人、地點(diǎn)、事物和活動(dòng)映射到企業(yè)內(nèi)部的相同四個(gè)維度——人、地點(diǎn)、事物和流程。傳統(tǒng)的數(shù)據(jù)平臺(tái)提供靜態(tài)快照,即萬(wàn)花筒視圖。代理需要更豐富的動(dòng)態(tài)表示,以捕捉作如何在整個(gè)企業(yè)中產(chǎn)生漣漪。當(dāng)代理修改流程中的某個(gè)步驟時(shí),它需要地圖來(lái)跟蹤對(duì)下游人員和工作流程的影響。

強(qiáng)化學(xué)習(xí)首先在已經(jīng)包含此類世界模型的環(huán)境中蓬勃發(fā)展。DeepMind 的《星際爭(zhēng)霸》AlphaStar 和 OpenAI 在 Dota 策略游戲上的工作就是典型的例子。每個(gè)環(huán)境都提供了持續(xù)的、可驗(yàn)證的獎(jiǎng)勵(lì)——測(cè)試戰(zhàn)略選擇和最終輸贏結(jié)果的中間信號(hào)。這些條件使代理能夠快速迭代并改進(jìn)。

同樣的原則也適用于企業(yè)。通過(guò)構(gòu)建四維數(shù)字孿生(人、地點(diǎn)、事物、流程),企業(yè)可以提供代理學(xué)習(xí)、適應(yīng)并最終在復(fù)雜運(yùn)營(yíng)中推動(dòng)可衡量結(jié)果所需的反饋循環(huán)。AlphaStar 和 Dota 的經(jīng)驗(yàn)教訓(xùn)構(gòu)成了這種更高級(jí)的企業(yè)級(jí)實(shí)施的藍(lán)圖。

如果一個(gè)代理可以利用合成世界模型來(lái)?yè)魯?99% 的職業(yè)玩家,想象一下當(dāng)“地圖”是銀行的數(shù)字孿生或供應(yīng)鏈的實(shí)時(shí)模型時(shí),它能做什么。但這也意味著企業(yè)(而不是供應(yīng)商)必須擁有并策劃世界模型,以便代理可以通過(guò)可驗(yàn)證的獎(jiǎng)勵(lì)來(lái)學(xué)習(xí)。關(guān)鍵是,AlphaStar 的經(jīng)驗(yàn)教訓(xùn)將轉(zhuǎn)化為金融、醫(yī)療保健和制造業(yè),以及任何具有數(shù)字孿生的東西。

Minecraft 所學(xué)技能示例

Minecraft 是下一個(gè)參考世界模型。在航海者號(hào)項(xiàng)目中,環(huán)境比《星際爭(zhēng)霸》更加開(kāi)放。代理首先學(xué)習(xí)如何制作簡(jiǎn)單的石器,然后使用這些工具構(gòu)建基本結(jié)構(gòu)。隨著能力的提高,它發(fā)現(xiàn)了如何鍛造更先進(jìn)的工具,每一項(xiàng)新功能都會(huì)解鎖更廣泛的任務(wù)。隨著時(shí)間的推移,代理會(huì)積累技能并擴(kuò)展其可以使用的工具集。這種漸進(jìn)的、自主的技能獲取至關(guān)重要,因?yàn)槊恳环N新能力都會(huì)豐富環(huán)境,進(jìn)而為進(jìn)一步學(xué)習(xí)提供更豐富的反饋。這種模式——學(xué)習(xí)一種工具,用它來(lái)創(chuàng)造價(jià)值,學(xué)習(xí)下一個(gè)工具——為構(gòu)建企業(yè)世界模型提供了一個(gè)重要的模板,在這種模型中,代理不斷擴(kuò)展自己的行動(dòng)空間。

沒(méi)有數(shù)據(jù)的算法 = 代理失敗

現(xiàn)在讓我們真正嘗試加倍強(qiáng)調(diào)數(shù)據(jù)的重要性。

每個(gè)關(guān)于人工智能的頭條新聞都?xì)w功于算法——AlexNet、Transformers、RLHF、新的推理堆?!@張幻燈片的右側(cè)提醒我們,每一項(xiàng)突破實(shí)際上都是由一個(gè)新的數(shù)據(jù)集時(shí)代引發(fā)的。

算法數(shù)據(jù)集
亞歷克斯網(wǎng) (2012)ImageNet – 包含 14 M 張照片的標(biāo)記語(yǔ)料庫(kù)
變形金剛 (2017)網(wǎng)絡(luò)爬蟲(chóng) – 大規(guī)模抓取數(shù)萬(wàn)億個(gè)令牌
RLHF 聊天機(jī)器人 (2022)獎(jiǎng)勵(lì)模型數(shù)據(jù) – 人工排名的響應(yīng)
推理代理(現(xiàn)在)企業(yè)孿生 – 可驗(yàn)證的、特定于領(lǐng)域的世界模型

杰克·莫里森 (Jack Morrison) 最近在 Latent Space 播客上強(qiáng)調(diào)了一篇博客文章,強(qiáng)調(diào)了一個(gè)反復(fù)出現(xiàn)的盲點(diǎn):每個(gè)人都專注于算法突破,而忽略了隱藏在眾目睽睽之下的數(shù)據(jù)集。莫里森勾勒出推理時(shí)代,并指出代理將從驗(yàn)證者(數(shù)學(xué)計(jì)算器、編譯器和代碼單元測(cè)試)中學(xué)習(xí),但關(guān)鍵數(shù)據(jù)集框基本上是空白的。數(shù)據(jù)集是顯而易見(jiàn)的。每個(gè)組織都在或?qū)⒁獦?gòu)建一個(gè)平臺(tái),以捕獲其運(yùn)營(yíng)的越來(lái)越大的數(shù)字孿生。這對(duì)孿生——人、地點(diǎn)、事物、流程——是巨大的、高保真語(yǔ)料庫(kù),將為企業(yè)級(jí)推理提供動(dòng)力。

將企業(yè)代理與數(shù)字孿生連接起來(lái)

現(xiàn)在讓我們?cè)诙x企業(yè)代理時(shí)將企業(yè)代理與數(shù)字孿生連接起來(lái)。

我們已經(jīng)從消費(fèi)者聊天上升到編碼/SWE 代理——下面的幻燈片顯示了這一切在公司內(nèi)部的運(yùn)作方式。Palantir 的圖表在右下角突出顯示了端到端供應(yīng)鏈孿生;左側(cè)的紅色標(biāo)注突出顯示了饋送代理箱的 RL 反饋箭頭。度量樹(shù)說(shuō)明了“發(fā)生了什么”如何匯總到“我們應(yīng)該做什么?

考慮三個(gè)協(xié)同工作的層:

安裝數(shù)字孿生——如此處所示的 Palantir 原理圖——只是第一步。將這種表示轉(zhuǎn)化為代理學(xué)習(xí)的引擎是度量樹(shù)。與傳統(tǒng)的商業(yè)智能儀表板不同,在傳統(tǒng)的商業(yè)智能儀表板中,關(guān)鍵績(jī)效指標(biāo)位于孤立的表或手工編碼的公式中,指標(biāo)樹(shù)將學(xué)習(xí)的分層圖中的每個(gè)度量鏈接起來(lái)。更改一個(gè)節(jié)點(diǎn)(例如,授權(quán)產(chǎn)品退貨),樹(shù)會(huì)揭示客戶支持滿意度、現(xiàn)有庫(kù)存和現(xiàn)金流指標(biāo)之間的漣漪。雙胞胎越富有,這些關(guān)系的保真度就越高。

代理位于此結(jié)構(gòu)之上,并動(dòng)態(tài)選擇與分析意圖相對(duì)應(yīng)的工具:

  • 發(fā)生了什么事?— 孿生上的 SQL 查詢

  • 為什么會(huì)這樣?— 業(yè)務(wù)規(guī)則執(zhí)行和圖推理

  • 接下來(lái)可能會(huì)發(fā)生什么?— 預(yù)測(cè)性機(jī)器學(xué)習(xí)

  • 我們?cè)撛趺崔k?— 規(guī)范性機(jī)器學(xué)習(xí)

如果樹(shù)缺少指標(biāo),代理會(huì)添加一個(gè)指標(biāo)——就像《我的世界》中的航海者號(hào)如何學(xué)習(xí)新工具和技能,然后將它們反饋到環(huán)境中一樣。每個(gè)新指標(biāo)都成為一種工具;每一個(gè)成功的動(dòng)作都成為一種技能;兩者都流入孿生,迭代地?cái)U(kuò)大其范圍。結(jié)果是一個(gè)自我強(qiáng)化的反饋循環(huán):智能體的動(dòng)作豐富了符號(hào)模型,而豐富的模型反過(guò)來(lái)又提高了智能體的決策。雙胞胎不必在第一天就完美無(wú)缺;它與代理能力同步增長(zhǎng)。

新的企業(yè)架構(gòu)正在興起

讓我們看看這將如何影響企業(yè)架構(gòu)。

下圖建立在我們之前的工作基礎(chǔ)上,并將其整合在一起。它還回答了這樣一個(gè)問(wèn)題:誰(shuí)在真正構(gòu)建業(yè)務(wù)的實(shí)時(shí)數(shù)字表示?

該圖重現(xiàn)了 Breaking Analysis 和 Services-as-Software 中經(jīng)常使用的分層堆棧。

  • 紫色 – 參與系統(tǒng)。BI 參與者(Tableau、Hex、Sigma、Power BI)必須通過(guò)指標(biāo)和維度將業(yè)務(wù)上下文注入平臺(tái)。

  • 綠色 – 智能系統(tǒng)。這就是數(shù)字孿生層,最有價(jià)值的房地產(chǎn)。爭(zhēng)奪 4D 地圖的供應(yīng)商包括 Palantir、Celonis、Blue Yonder、Salesforce Data Cloud、RelationalAI、ServiceNow 和 Databricks(愿望)。無(wú)論誰(shuí)在這里硬連接業(yè)務(wù)邏輯和技能,都會(huì)為其他人設(shè)定規(guī)則。

  • 黃色 – 代理系統(tǒng)。一旦孿生上線,代理就會(huì)致電它尋求答案并通過(guò)它路由回寫,確保每個(gè)作都受到受監(jiān)管的策略。

  • 橙色 – 治理。策略和世系跨越堆棧。

  • 藍(lán)色 – 數(shù)據(jù)基礎(chǔ)設(shè)施。Snowflake、Databricks 和超大規(guī)模企業(yè)都坐在這里——至關(guān)重要的管道,但隨著價(jià)值向上移動(dòng),利潤(rùn)壓力也越來(lái)越大。

這種模式與信息技術(shù)的歷史相呼應(yīng):每個(gè)新的抽象層都包含下面的抽象層。下層不斷創(chuàng)新,但一旦上層決定公開(kāi)哪些功能,就會(huì)失去基于功能的差異化和定價(jià)權(quán)。傳統(tǒng)數(shù)據(jù)平臺(tái)捕獲字符串的快照;以指標(biāo)為中心的平臺(tái)將它們升級(jí)為事物的快照。綠色層更進(jìn)一步——捕獲流程——彌合了 60 年的應(yīng)用程序和數(shù)據(jù)孤島。

競(jìng)爭(zhēng)者快速瀏覽:

  • Palantir 提供了豐富的本體——強(qiáng)大但要求很高,是那些能夠使用它們的人的終極工具集。

  • Celonis 捕獲數(shù)千個(gè)流程變體的現(xiàn)狀,然后打包優(yōu)化,以便客戶避免手動(dòng)構(gòu)建每個(gè)流程。

  • Blue Yonder 提供隨時(shí)可用的端到端供應(yīng)鏈模式。

  • Salesforce 已經(jīng)對(duì)客戶流程進(jìn)行了建模,并打算遠(yuǎn)遠(yuǎn)超出這一目標(biāo),收購(gòu) Informatica 強(qiáng)調(diào)了這一目標(biāo)。

  • RelationalAI 引入了一個(gè)具有電子表格級(jí)可訪問(wèn)性的知識(shí)圖譜平臺(tái);它的聲明式模型允許業(yè)務(wù)用戶直接參與定義邏輯。

  • ServiceNow 正在組裝一個(gè)工作流數(shù)據(jù)結(jié)構(gòu)——另一種面向流程的方法。

  • Databricks 將數(shù)據(jù)智能稱為存在主義,并計(jì)劃超越指標(biāo)和維度,轉(zhuǎn)向完整的流程知識(shí)。其先進(jìn)的代理開(kāi)發(fā)工具將需要更豐富的數(shù)據(jù)智能或與上述供應(yīng)商的合作伙伴關(guān)系才能發(fā)揮其潛力。

保證金和控制權(quán)將累積到捕獲流程和提供代理的層;數(shù)據(jù)基礎(chǔ)設(shè)施雖然不可或缺,但卻成為其背后成本優(yōu)化的基礎(chǔ)。

分叉的企業(yè)軟件世界

現(xiàn)在讓我們關(guān)注企業(yè)軟件如何分裂成兩個(gè)世界。

想象一下最近邦德電影中結(jié)冰的湖面場(chǎng)景:拉米·馬利克飾演的反派毫發(fā)無(wú)傷地站在光滑的水面上,而一名潛水員則在下面寒冷的水中揮舞。這個(gè)比喻捕捉到了企業(yè)軟件如何分裂成兩個(gè)不同的世界。

  • 冰之上是黃綠色的領(lǐng)域:參與系統(tǒng)、情報(bào)和代理系統(tǒng)。這里的供應(yīng)商從實(shí)時(shí)數(shù)字孿生中學(xué)習(xí)業(yè)務(wù),并推動(dòng)基于結(jié)果的定價(jià)。差異化很高,企業(yè)本身最終將獲得很大一部分價(jià)值,支持供應(yīng)商也參與其中。

  • 冰層之下是數(shù)據(jù)平臺(tái)、存儲(chǔ)格式、圖形處理單元和其他基礎(chǔ)設(shè)施。除非供應(yīng)商擁有近乎壟斷的杠桿率,否則公用事業(yè)費(fèi)率的定價(jià)趨勢(shì)——英特爾公司曾經(jīng)這樣做過(guò),英偉達(dá)現(xiàn)在可能會(huì)這樣做,超大規(guī)模企業(yè)可能會(huì)在現(xiàn)貨實(shí)例上保持一個(gè)人為的保護(hù)傘。歷史表明,這些雨傘會(huì)隨著時(shí)間的推移而倒塌,使得在這一層脫穎而出變得更加困難。

該行業(yè)正在相應(yīng)地保持一致:冰上層的參與者專注于建模的商業(yè)環(huán)境和更高的利潤(rùn)經(jīng)濟(jì),而下層的參與者則面臨著越來(lái)越大的商品化壓力。戰(zhàn)略選擇是晉升到以結(jié)果為導(dǎo)向的層級(jí),或者為基礎(chǔ)設(shè)施壕溝中利潤(rùn)率的收緊做好準(zhǔn)備。

蓬勃發(fā)展的企業(yè)將重新構(gòu)想其業(yè)務(wù):不鋪平牛道

討論又回到了一個(gè)結(jié)論:擁有連貫的高信號(hào)企業(yè)數(shù)據(jù)是下一波人工智能價(jià)值捕獲的決定性因素。實(shí)驗(yàn)室可能仍然主導(dǎo)著主要模型發(fā)布,但這些模型越來(lái)越依賴只有大型組織才能擁有的專有地面實(shí)況數(shù)據(jù)。

在上面的視覺(jué)效果中,Sam Altman 錨定了左邊——世界著名的粉底模型。Amodei 位于中左翼,證明了對(duì)領(lǐng)域反饋的后期培訓(xùn)可以產(chǎn)生有意義的 ARR。中右翼是每個(gè)人都在追求的獎(jiǎng)品。在我們看來(lái),企業(yè)的實(shí)時(shí)、可驗(yàn)證的數(shù)字孿生在最右邊由戴蒙代表,他是銀行業(yè)最深層交易賬本的管理者,他完全有能力將孿生武器化,并在保證金和護(hù)城河上挑戰(zhàn)模型實(shí)驗(yàn)室。

關(guān)鍵外賣

  • 構(gòu)建和維護(hù)數(shù)字孿生(人、地點(diǎn)、事物、流程)的企業(yè)最適合收獲人工智能利潤(rùn)池。

  • 這種轉(zhuǎn)變需要的不僅僅是技術(shù);它需要圍繞端到端的客戶成果進(jìn)行重新組織。對(duì)于銀行來(lái)說(shuō),基準(zhǔn)可能是盡快在合規(guī)方面入職和了解客戶。

  • 這種變化類似于將白領(lǐng)工作從手工藝生產(chǎn)轉(zhuǎn)移到裝配線。組織重新設(shè)計(jì)和數(shù)據(jù)建模齊頭并進(jìn)。



關(guān)鍵詞: OpenAI AI代理

評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉