新聞中心

EEPW首頁(yè) > 機(jī)器人 > 業(yè)界動(dòng)態(tài) > Google新機(jī)器人AI可在沒有云情況下運(yùn)行,并仍可系鞋帶

Google新機(jī)器人AI可在沒有云情況下運(yùn)行,并仍可系鞋帶

—— 谷歌的 Carolina Parada 表示,Gemini 已經(jīng)實(shí)現(xiàn)了巨大的機(jī)器人技術(shù)突破,例如新的設(shè)備端 AI。
作者: 時(shí)間:2025-06-25 來源: 收藏

我們有時(shí)將 Gemini 和 ChatGPT 等聊天機(jī)器人稱為“機(jī)器人”,但生成式 在真實(shí)的物理機(jī)器人中也發(fā)揮著越來越大的作用。在今年早些時(shí)候宣布 Gemini Robotics 之后, DeepMind 現(xiàn)在推出了一種新的設(shè)備上 VLA(視覺語言動(dòng)作)模型來控制機(jī)器人。與之前的版本不同,它沒有云組件,允許機(jī)器人完全自主運(yùn)行。

本文引用地址:http://www.2s4d.com/article/202506/471670.htm

DeepMind 機(jī)器人技術(shù)負(fù)責(zé)人 Carolina Parada 表示,這種 機(jī)器人技術(shù)方法可以使機(jī)器人在具有挑戰(zhàn)性的情況下更加可靠。這也是 機(jī)器人模型的第一個(gè)版本,開發(fā)人員可以根據(jù)其特定用途進(jìn)行調(diào)整。

機(jī)器人技術(shù)是 的一個(gè)獨(dú)特問題,因?yàn)闄C(jī)器人不僅存在于物理世界中,而且還會(huì)改變其環(huán)境。無論您是讓它四處移動(dòng)積木還是系鞋帶,都很難預(yù)測(cè)機(jī)器人可能遇到的每一種可能性。使用強(qiáng)化訓(xùn)練機(jī)器人動(dòng)作的傳統(tǒng)方法非常緩慢,但生成式 AI 允許更大的泛化。

“它借鑒了 Gemini 的多模態(tài)世界理解,以完成一項(xiàng)全新的任務(wù),”Carolina Parada 解釋說?!斑@使得 Gemini 能夠以同樣的方式生成文本、寫詩(shī)、總結(jié)一篇文章,還可以編寫代碼,還可以生成圖像。它還可以生成機(jī)器人動(dòng)作。

通用機(jī)器人,無需云

在之前的 Gemini Robotics 版本(仍然是 Google 機(jī)器人技術(shù)的“最佳”版本)中,這些平臺(tái)運(yùn)行了一個(gè)混合系統(tǒng),其中一個(gè)小模型在機(jī)器人上,一個(gè)較大的模型在云中運(yùn)行。您可能已經(jīng)看到聊天機(jī)器人在生成輸出時(shí)“思考”了可測(cè)量的幾秒鐘,但機(jī)器人需要快速反應(yīng)。如果您告訴機(jī)器人拾取并移動(dòng)對(duì)象,則不希望它在生成每個(gè)步驟時(shí)暫停。本地模型允許快速適應(yīng),而基于服務(wù)器的模型可以幫助完成復(fù)雜的推理任務(wù)。Google DeepMind 現(xiàn)在正在將本地模型作為獨(dú)立的 VLA 發(fā)布,而且它非常強(qiáng)大。

新的 Gemini Robotics On-Device 模型的準(zhǔn)確性僅比混合動(dòng)力版本差一點(diǎn)。根據(jù) Parada 的說法,許多任務(wù)都是開箱即用的。“當(dāng)我們與機(jī)器人一起玩時(shí),我們看到它們能夠理解新情況的能力出奇地大,”Parada 告訴 Ars。

通過發(fā)布帶有完整 SDK 的模型,該團(tuán)隊(duì)希望開發(fā)人員能夠?yàn)?Gemini 驅(qū)動(dòng)的機(jī)器人提供新任務(wù),并向它們展示新環(huán)境,這可能會(huì)揭示與模型的庫(kù)存調(diào)整不起作用的作。借助 SDK,機(jī)器人研究人員將能夠通過低至 50 到 100 次演示使 VLA 適應(yīng)新任務(wù)。

1750832288764.png新的 Robotics On-Device 模型幾乎與具有云處理功能的混合模型一樣具有適應(yīng)性。來源: 谷歌

AI 機(jī)器人的“演示”與 AI 研究的其他領(lǐng)域略有不同。Parada 解釋說,演示通常涉及遠(yuǎn)程作機(jī)器人 — 手動(dòng)控制機(jī)器以完成任務(wù),調(diào)整模型以自主處理該任務(wù)。雖然合成數(shù)據(jù)是 Google 培訓(xùn)的一個(gè)元素,但它并不能替代真實(shí)數(shù)據(jù)?!拔覀?nèi)匀话l(fā)現(xiàn),在最復(fù)雜、最靈巧的行為中,我們需要真實(shí)的數(shù)據(jù),”Parada 說?!暗牵憧梢杂梅抡孀龊芏嗍虑??!?/p>

但這些高度復(fù)雜的行為可能超出了設(shè)備上的 VLA 的能力范圍。它應(yīng)該沒有問題,可以進(jìn)行簡(jiǎn)單的作,例如系鞋帶(AI 機(jī)器人的傳統(tǒng)困難任務(wù))或折疊襯衫。但是,如果您想讓機(jī)器人為您制作三明治,則可能需要一個(gè)更強(qiáng)大的模型來完成將面包放在正確位置所需的多步驟推理。

該團(tuán)隊(duì)認(rèn)為 Gemini Robotics On-Device 非常適合與云連接不穩(wěn)定或不存在的環(huán)境。在本地處理機(jī)器人的視覺數(shù)據(jù)也更有利于隱私,例如,在醫(yī)療保健環(huán)境中。

構(gòu)建安全的機(jī)器人

安全始終是 AI 系統(tǒng)關(guān)注的問題,無論是提供危險(xiǎn)信息的聊天機(jī)器人還是成為終結(jié)者的機(jī)器人。我們都見過生成式 AI 聊天機(jī)器人和圖像生成器在其輸出中產(chǎn)生幻覺,為 Gemini Robotics 提供支持的生成系統(tǒng)也不例外——該模型并非每次都做對(duì),但給模型一個(gè)帶有冰冷、無情的金屬抓取器的物理體現(xiàn)會(huì)使問題變得更加棘手。

為了確保機(jī)器人安全運(yùn)行,Gemini Robotics 采用了多層方法?!笆褂猛暾?Gemini Robotics,您正在連接到一個(gè)模型,該模型正在推理什么是安全的,”Parada 說。“然后你讓它與實(shí)際產(chǎn)生選項(xiàng)的 VLA 交談,然后 VLA 調(diào)用一個(gè)低級(jí)控制器,該控制器通常具有安全關(guān)鍵組件,例如您可以移動(dòng)多少力或可以移動(dòng)這個(gè)臂的速度?!?/p>

重要的是,新的設(shè)備端模型只是一個(gè) VLA,因此開發(fā)人員將自行構(gòu)建安全。不過,谷歌建議他們復(fù)制 Gemini 團(tuán)隊(duì)所做的。建議早期測(cè)試程序中的開發(fā)人員將系統(tǒng)連接到標(biāo)準(zhǔn) Gemini Live API,其中包括一個(gè)安全層。他們還應(yīng)該實(shí)施一個(gè)低級(jí)控制器,用于關(guān)鍵的安全檢查。

任何有興趣測(cè)試 Gemini Robotics On-Device 的人都應(yīng)該申請(qǐng)加入 Google 的可信測(cè)試員計(jì)劃。Google 的 Carolina Parada 表示,過去三年中,機(jī)器人技術(shù)取得了許多突破,而這僅僅是個(gè)開始——Gemini Robotics 的當(dāng)前版本仍然基于 Gemini 2.0。Parada 指出,Gemini Robotics 團(tuán)隊(duì)通常落后于 Gemini 開發(fā)一個(gè)版本,而 Gemini 2.5 被認(rèn)為在聊天機(jī)器人功能方面取得了巨大改進(jìn)。也許機(jī)器人也會(huì)如此。




關(guān)鍵詞: Google 新機(jī)器人 AI

評(píng)論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉