Google新機(jī)器人AI可在沒有云情況下運(yùn)行，并仍可系鞋帶

—— 谷歌的 Carolina Parada 表示，Gemini 已經(jīng)實(shí)現(xiàn)了巨大的機(jī)器人技術(shù)突破，例如新的設(shè)備端 AI。

作者：時(shí)間：2025-06-25 來源：

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

我們有時(shí)將 Gemini 和 ChatGPT 等聊天機(jī)器人稱為“機(jī)器人”，但生成式 AI 在真實(shí)的物理機(jī)器人中也發(fā)揮著越來越大的作用。在今年早些時(shí)候宣布 Gemini Robotics 之后，Google DeepMind 現(xiàn)在推出了一種新的設(shè)備上 VLA（視覺語言動(dòng)作）模型來控制機(jī)器人。與之前的版本不同，它沒有云組件，允許機(jī)器人完全自主運(yùn)行。

本文引用地址：http://www.2s4d.com/article/202506/471670.htm

Google DeepMind 機(jī)器人技術(shù)負(fù)責(zé)人 Carolina Parada 表示，這種 AI 機(jī)器人技術(shù)方法可以使機(jī)器人在具有挑戰(zhàn)性的情況下更加可靠。這也是 Google 機(jī)器人模型的第一個(gè)版本，開發(fā)人員可以根據(jù)其特定用途進(jìn)行調(diào)整。

機(jī)器人技術(shù)是 AI 的一個(gè)獨(dú)特問題，因?yàn)闄C(jī)器人不僅存在于物理世界中，而且還會(huì)改變其環(huán)境。無論您是讓它四處移動(dòng)積木還是系鞋帶，都很難預(yù)測(cè)機(jī)器人可能遇到的每一種可能性。使用強(qiáng)化訓(xùn)練機(jī)器人動(dòng)作的傳統(tǒng)方法非常緩慢，但生成式 AI 允許更大的泛化。

“它借鑒了 Gemini 的多模態(tài)世界理解，以完成一項(xiàng)全新的任務(wù)，”Carolina Parada 解釋說?！斑@使得 Gemini 能夠以同樣的方式生成文本、寫詩(shī)、總結(jié)一篇文章，還可以編寫代碼，還可以生成圖像。它還可以生成機(jī)器人動(dòng)作。

通用機(jī)器人，無需云

在之前的 Gemini Robotics 版本（仍然是 Google 機(jī)器人技術(shù)的“最佳”版本）中，這些平臺(tái)運(yùn)行了一個(gè)混合系統(tǒng)，其中一個(gè)小模型在機(jī)器人上，一個(gè)較大的模型在云中運(yùn)行。您可能已經(jīng)看到聊天機(jī)器人在生成輸出時(shí)“思考”了可測(cè)量的幾秒鐘，但機(jī)器人需要快速反應(yīng)。如果您告訴機(jī)器人拾取并移動(dòng)對(duì)象，則不希望它在生成每個(gè)步驟時(shí)暫停。本地模型允許快速適應(yīng)，而基于服務(wù)器的模型可以幫助完成復(fù)雜的推理任務(wù)。Google DeepMind 現(xiàn)在正在將本地模型作為獨(dú)立的 VLA 發(fā)布，而且它非常強(qiáng)大。

新的 Gemini Robotics On-Device 模型的準(zhǔn)確性僅比混合動(dòng)力版本差一點(diǎn)。根據(jù) Parada 的說法，許多任務(wù)都是開箱即用的。“當(dāng)我們與機(jī)器人一起玩時(shí)，我們看到它們能夠理解新情況的能力出奇地大，”Parada 告訴 Ars。

通過發(fā)布帶有完整 SDK 的模型，該團(tuán)隊(duì)希望開發(fā)人員能夠?yàn)?Gemini 驅(qū)動(dòng)的機(jī)器人提供新任務(wù)，并向它們展示新環(huán)境，這可能會(huì)揭示與模型的庫(kù)存調(diào)整不起作用的作。借助 SDK，機(jī)器人研究人員將能夠通過低至 50 到 100 次演示使 VLA 適應(yīng)新任務(wù)。

新的 Robotics On-Device 模型幾乎與具有云處理功能的混合模型一樣具有適應(yīng)性。來源：谷歌

AI 機(jī)器人的“演示”與 AI 研究的其他領(lǐng)域略有不同。Parada 解釋說，演示通常涉及遠(yuǎn)程作機(jī)器人 — 手動(dòng)控制機(jī)器以完成任務(wù)，調(diào)整模型以自主處理該任務(wù)。雖然合成數(shù)據(jù)是 Google 培訓(xùn)的一個(gè)元素，但它并不能替代真實(shí)數(shù)據(jù)?！拔覀?nèi)匀话l(fā)現(xiàn)，在最復(fù)雜、最靈巧的行為中，我們需要真實(shí)的數(shù)據(jù)，”Parada 說?！暗牵憧梢杂梅抡孀龊芏嗍虑??！?/p>

但這些高度復(fù)雜的行為可能超出了設(shè)備上的 VLA 的能力范圍。它應(yīng)該沒有問題，可以進(jìn)行簡(jiǎn)單的作，例如系鞋帶（AI 機(jī)器人的傳統(tǒng)困難任務(wù)）或折疊襯衫。但是，如果您想讓機(jī)器人為您制作三明治，則可能需要一個(gè)更強(qiáng)大的模型來完成將面包放在正確位置所需的多步驟推理。

該團(tuán)隊(duì)認(rèn)為 Gemini Robotics On-Device 非常適合與云連接不穩(wěn)定或不存在的環(huán)境。在本地處理機(jī)器人的視覺數(shù)據(jù)也更有利于隱私，例如，在醫(yī)療保健環(huán)境中。

構(gòu)建安全的機(jī)器人

安全始終是 AI 系統(tǒng)關(guān)注的問題，無論是提供危險(xiǎn)信息的聊天機(jī)器人還是成為終結(jié)者的機(jī)器人。我們都見過生成式 AI 聊天機(jī)器人和圖像生成器在其輸出中產(chǎn)生幻覺，為 Gemini Robotics 提供支持的生成系統(tǒng)也不例外——該模型并非每次都做對(duì)，但給模型一個(gè)帶有冰冷、無情的金屬抓取器的物理體現(xiàn)會(huì)使問題變得更加棘手。

為了確保機(jī)器人安全運(yùn)行，Gemini Robotics 采用了多層方法?！笆褂猛暾?Gemini Robotics，您正在連接到一個(gè)模型，該模型正在推理什么是安全的，”Parada 說。“然后你讓它與實(shí)際產(chǎn)生選項(xiàng)的 VLA 交談，然后 VLA 調(diào)用一個(gè)低級(jí)控制器，該控制器通常具有安全關(guān)鍵組件，例如您可以移動(dòng)多少力或可以移動(dòng)這個(gè)臂的速度?！?/p>

重要的是，新的設(shè)備端模型只是一個(gè) VLA，因此開發(fā)人員將自行構(gòu)建安全。不過，谷歌建議他們復(fù)制 Gemini 團(tuán)隊(duì)所做的。建議早期測(cè)試程序中的開發(fā)人員將系統(tǒng)連接到標(biāo)準(zhǔn) Gemini Live API，其中包括一個(gè)安全層。他們還應(yīng)該實(shí)施一個(gè)低級(jí)控制器，用于關(guān)鍵的安全檢查。

任何有興趣測(cè)試 Gemini Robotics On-Device 的人都應(yīng)該申請(qǐng)加入 Google 的可信測(cè)試員計(jì)劃。Google 的 Carolina Parada 表示，過去三年中，機(jī)器人技術(shù)取得了許多突破，而這僅僅是個(gè)開始——Gemini Robotics 的當(dāng)前版本仍然基于 Gemini 2.0。Parada 指出，Gemini Robotics 團(tuán)隊(duì)通常落后于 Gemini 開發(fā)一個(gè)版本，而 Gemini 2.5 被認(rèn)為在聊天機(jī)器人功能方面取得了巨大改進(jìn)。也許機(jī)器人也會(huì)如此。