OpenAI再次對線谷歌，誰才是贏家？

作者：陳玲麗時間：2024-05-16 來源：電子產(chǎn)品世界

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

2月份，谷歌發(fā)布了多模態(tài)大模型Gemini 1.5 Pro，直接將性能拉到支持百萬Token的業(yè)界新高。但在同一天OpenAI發(fā)布了文生視頻工具Sora，搶盡了谷歌 Gemini的幾乎所有風頭。

本文引用地址：http://www.2s4d.com/article/202405/458804.htm

這一次OpenAI再次精準“定位”，上周突然宣布在谷歌I/O大會前一天搶先召開發(fā)布會，而谷歌I/O大會的日期早在數(shù)月前就已經(jīng)定檔。OpenAI發(fā)布的最新大模型GPT-4o（o代表著Omnimodel全能模型），提前引爆了AI大模型的關注熱度，分散了谷歌即將發(fā)布AI新品的話題度。

OpenAI更自然的人機交互

在OpenAI的最新發(fā)布會上，雖然沒能見到GPT-5，但GPT-4o的出現(xiàn)仍然驚艷，GPT-4o中的“o”代表“Omni”，是一個基于GPT-4之上的多模態(tài)大模型。OpenAI稱，它向更自然的人機交互邁進了一步，因為它接受文本、音頻和圖像的任意組合作為輸入內(nèi)容，并生成文本、音頻和圖像的任意組合輸出內(nèi)容。

GPT-4o不僅是完全免費的，而且覆蓋了桌面與移動App，人機交互更加自然簡單，真正做到了實時語音對話，就像是與真人聊天一樣自然流暢 —— 能夠在短至232毫秒內(nèi)響應音頻輸入，平均響應時間為320毫秒，與人類在對話中的反應速度幾乎一致。

對比傳統(tǒng)語音助手如Siri、Alexa以及各種「同學們」在處理語音輸入時，需要多個模型的接力處理：先將音頻轉(zhuǎn)換為文本，再進行“輸入并輸出文本”的處理，最后再將文本轉(zhuǎn)換回音頻。這種處理方式常導致信息的大量丟失，例如無法捕捉到語調(diào)、識別多個說話者或背景噪音。GPT-4o則是通過端到端地訓練一個統(tǒng)一的新模型，直接處理所有輸入和輸出，實現(xiàn)了真正的毫秒級響應。

值得注意的是，GPT-4o還能夠與用戶進行多樣化的語氣交互，并精準捕捉到用戶的情緒變化。面對GPT-4o處理反應已經(jīng)達到人類的速度，甚至還可以理解用戶的情緒，以相應的情感作出回應。那么，谷歌在I/O大會上又拿出了怎樣的AI產(chǎn)品，是否帶來了足夠的震撼與新意？

谷歌AI全家桶

谷歌I/O大會主題演講上發(fā)布了一系列基于Gemini的“AI全家桶” —— 包括AI助手Project Astra、升級200萬tokens上下文的Gemini 1.5 Pro、新模型Gemini 1.5 flash、類Sora的新視頻大模型Veo，以及包括AI搜索、AI+Gmail在內(nèi)的多個AI應用。

Project Astra

Project Astra是一個實時、多模式的人工智能助手，而從谷歌的演示視頻來看，可以通過視頻畫面接受信息、理解復雜多變的環(huán)境并做出回應。例如用戶手持手機，將攝像頭對準辦公室的不同角落，當發(fā)出指令“請告訴我智能眼鏡在哪里”時，Astra能夠迅速識別物體，并與用戶進行實時的語音交流。

它也可以理解繪畫和圖像，如可以對一個寫在白板上的系統(tǒng)流程圖給出意見“在服務器和數(shù)據(jù)庫間添加緩存可以提高速度”。DeepMind聯(lián)合創(chuàng)始人兼首席執(zhí)行官德米斯·哈薩比斯（Demis Hassabis）稱，Project Astra是自己期待了幾十年的AI助手的雛形，是通用AI的未來，“可以通過連續(xù)編碼視頻幀、將視頻和語音輸入組合到事件時間線中，并緩存這些信息以進行有效回憶，從而更快地處理信息?！?/p>

略微遺憾的是，OpenAI搶先發(fā)布了GPT-4o的類似功能，晚一天亮相的Project Astra少了一些驚喜和震撼，或許這就是OpenAI突然搶先發(fā)布的主要原因，因為誰先發(fā)布就占據(jù)了媒體報道的焦點。

升級版Gemini 1.5 pro

Project Astra背后的Gemini系列大模型能力也有更新，此次升級大致可以歸結(jié)為：更長上下文、輕量版本、個性化機器人。升級后的Gemini可以分析比以前更長的文檔、代碼庫、視頻和音頻記錄，據(jù)透露，它最多可以容納200萬token（暫時只面向開發(fā)者提供）。這是之前的兩倍，新版Gemini 1.5 Pro支持所有商用型號中最大的輸入。

新模型Gemini 1.5 flash

為了滿足不同場景的需求，谷歌還發(fā)布了新的輕量級模型：Gemini 1.5 Flash，是通過Gemini 1.5 Pro“蒸餾”得來（“蒸餾”是一種模型壓縮技術，讓小模型學習大模型，將重要的知識和技能遷移過來）。Gemini 1.5 Flash的上下文處理能力同樣達到了百萬級別，但卻比1.5 Pro更為輕便迅速，針對低延遲和專注成本的任務進行了優(yōu)化，更適合規(guī)?；瘶?gòu)建。

解決了關鍵的成本問題，Gemini 1.5 Flash的價格定為每100萬個token需要35美分，這比GPT-4o的每100萬個token需要5美元的價格要便宜得多。

Gemini大模型已經(jīng)覆蓋了谷歌全平臺的20億用戶產(chǎn)品，僅僅三個月時間就有100多萬用戶注冊使用。而兩個月前發(fā)布的原生多模型Gemini 1.5 Pro已經(jīng)得到超過150萬開發(fā)者的使用。

在AI領域投入了十多年時間，貫穿了AI的每一層：研究、產(chǎn)品、基礎設施后，谷歌宣布已經(jīng)全面進入Gemini時代。雖然OpenAI在產(chǎn)品發(fā)布方面搶占了先發(fā)優(yōu)勢，但谷歌在研究論文、用戶規(guī)模、產(chǎn)品數(shù)量以及算力方面都占據(jù)著壓倒性優(yōu)勢。

文生視頻模型Veo

視頻生成模型Veo直接對標OpenAI的Sora，可以根據(jù)文本提示創(chuàng)建大約一分鐘長的1080p視頻剪輯。Veo可以捕捉不同的視覺和電影風格，包括風景和延時鏡頭，并對已生成的鏡頭進行編輯和調(diào)整。與Sora類似，Veo展現(xiàn)了對物理規(guī)律的一定理解，比如流體動力學和重力等。

未來Veo將整合到Y(jié)ouTube Shorts和其他產(chǎn)品中，YouTube Shorts是谷歌對標TikTok的短視頻服務，得益于YouTube的龐大體量，發(fā)布三年時間之后，目前月活用戶已經(jīng)突破了23億。顯然，一旦Veo進入YouTube Shorts，其用戶規(guī)模將是Sora所無法想象的。

更強的AI搜索

自生成式AI崛起開始，搜索被認為是AI應用最成熟的場景。AI搜索的升級也是本次發(fā)布會的一大亮點，推出了AI Overviews，該功能將AI結(jié)果加入到搜索內(nèi)容呈現(xiàn)，即當用戶進行提問時，頁面頂部將提供AI生成的答案。每次用戶進行搜索時，谷歌會在后臺進行算法價值判斷，以決定是否提供由AI生成的答案還是直接提供傳統(tǒng)的網(wǎng)頁鏈接。

谷歌也強化了多模態(tài)方面的搜索表現(xiàn)。比如，推出AI驅(qū)動的“圈搜索”功能，允許Android用戶使用轉(zhuǎn)圈等手勢立即獲得答案。這一設計的初衷是，讓用戶在手機上的任何地方都可以更自然地通過一些操作（例如圈選、突出顯示、涂鴉或點擊）來使用搜索。此外，用戶還能通過結(jié)合視頻進行搜索，用視頻搜索能夠更清晰、準確地反饋問題。

實際上，移動端才是用戶體驗谷歌AI功能的最直接平臺。在今年年初三星手機推出谷歌AI技術加持的畫圈搜索、全屏翻譯等人性功能之后（三星國行版使用百度AI技術），半年時間全球已經(jīng)有超過1億設備搭載了谷歌畫圈搜索功能。谷歌預計今年年底這一數(shù)字將翻一倍，達到兩億設備。

第六代TPU芯片Trillium

在I/O大會上還發(fā)布了第六代TPU處理器Trillum，每個芯片處理速度比前一代TPU v5e提升了4.7倍。谷歌在AI領域的強大優(yōu)勢不僅體現(xiàn)在大模型，還體現(xiàn)在他們在AI處理器領域的實力，早在2016年谷歌就推出了為AI訓練設計的第一代TPU（定制張量處理單元）。Gemini大模型完全是在自己的第四代和第五代TPU上進行訓練與服務的，谷歌甚至還向Anthropic等其他AI公司提供了TPU訓練服務。除了TPU之外，谷歌上個月還發(fā)布了第一代基于ARM架構(gòu)的AI CPU Axiom。

OpenAI再次對線谷歌

2023一整年，OpenAI和谷歌多次對線，相信谷歌深深品嘗到了peer pressure的滋味：

· 2022年11月，OpenAI發(fā)布ChatGPT一鳴驚人，開啟了全球大語言模型的熱潮；2023年3月，谷歌緊急發(fā)布了Bard，上線時功能有限，無法和ChatGPT有效競爭。

· 在谷歌發(fā)布Bard的同一時期，OpenAI已經(jīng)更新推出GPT-4并開放了API；2023年的谷歌I/O大會發(fā)布PaLM 2對應GPT-4。但PaLM 2僅僅縮小了與GPT-4的差距，并沒有整體超越GPT-4，因此在這場大會上同時宣布正在訓練PaLM的繼任者Gemini。

· 2023年12月，谷歌發(fā)布Gemini，而GPT-4已經(jīng)是OpenAI一年前的產(chǎn)品。而且，Gemini還被爆出，宣稱打敗GPT-4的多模態(tài)視頻有后期制作和剪輯的成分。

· 谷歌隨后緊接著推出了最強多模態(tài)大模型Gemini 1.5 pro，能夠穩(wěn)定處理高達100萬token，創(chuàng)下了最長上下文窗口的紀錄；面對Gemini 1.5 pro，OpenAI只用了幾個小時就做出了回應 —— 推出文字視頻生成模型Sora，用前所未有的視頻生成性能以及世界模型的產(chǎn)品化，搶走了Gemini 1.5 pro的話題度，也強化了自己的AI領導地位。

從產(chǎn)品進展來看OpenAI領先一籌。雖然OpenAI憑借創(chuàng)業(yè)公司的靈活專注優(yōu)勢，屢屢搶占先發(fā)優(yōu)勢，每次都能領先谷歌一步發(fā)布新品，但谷歌依然有著自己的獨有優(yōu)勢所在。作為最早投入AI研究的科技巨頭，谷歌最大的競爭優(yōu)勢不僅在于產(chǎn)品的研發(fā)，還包括了基礎設施和運算能力，在于龐大的谷歌應用矩陣與數(shù)十億的用戶級別。

OpenAI的GPT-4o在自然語言處理能力上表現(xiàn)強大，谷歌在多模態(tài)理解、數(shù)據(jù)豐富性和開發(fā)者支持方面也展現(xiàn)了強勁的競爭力。兩者在各自擅長的領域均有顯著優(yōu)勢，并不斷推動人工智能技術的發(fā)展。

目前來看，手機依然是AI智能助手最重要的硬件載體，掌握Android系統(tǒng)的谷歌有著天然的優(yōu)勢，前段時間蘋果與OpenAI的合作傳聞，可能正是來源于二者對抗谷歌因而各取所需?，F(xiàn)在谷歌除了Gemini外，還有強力的外部支持，也是相比其他競爭者的最大優(yōu)勢之一，即豐富的應用生態(tài)，可以用Gemini打通并連接更多自己的應用，用戶在谷歌應用和服務中的信息都能被調(diào)用。

移動與桌面兩端的20億+的用戶規(guī)模，以及幾乎覆蓋所有領域的產(chǎn)品，更是谷歌AI技術落地的龐大產(chǎn)品軍火庫。從搜索到郵件，從地圖到圖片，再到辦公組件，谷歌有著太多上億乃至十億用戶級別的產(chǎn)品可以承載AI落地。

然而，谷歌DeepMind的技術路線就暴露出了明顯的短板：在各個技術方向上投入的泛創(chuàng)新，消耗了大量資金，DeepMind與谷歌母公司Alphabet在商業(yè)化上的矛盾日趨加深；每個技術的重視程度、持續(xù)深入強度分散，最典型的就是Transformer架構(gòu)，由谷歌發(fā)明卻被OpenAI發(fā)揚光大；落地遲緩，成果轉(zhuǎn)化的效率也很低下，這一點在Sora的爆火上就能看到，訓練Sora使用的擴散模型（diffusion model）、文生圖模型，谷歌都有相應的技術儲備和成果，但是卻沒能先推出相關的產(chǎn)品。

值得一提的是，今年初，OpenAI發(fā)布了AI文生視頻模型Sora，一度驚艷市場，但Sora的模型訓練數(shù)據(jù)來源卻引起了外界的懷疑。面對Sora濫用Youtube視頻訓練的問題，在接受接受采訪時，桑達爾·皮查伊表示，如果谷歌確定OpenAI依賴YouTube內(nèi)容來訓練其Sora模型，谷歌將要“解決這個問題”。

“我認為這是他們應該回答的問題，我沒有什么要補充的，我們有明確的服務條款。所以，你知道，我認為通常在這些事情上，我們會與企業(yè)接觸，并確保他們理解我們的服務條款。我們會解決的?！?/span>

新聞中心

OpenAI再次對線谷歌，誰才是贏家？

評論

相關推薦

技術專區(qū)

新聞中心

OpenAI再次對線谷歌，誰才是贏家？

評論

相關推薦

技術專區(qū)

OpenAI再次對線谷歌，誰才是贏家？