TRI:預(yù)訓(xùn)練的大型行為模型加速機(jī)器人學(xué)習(xí)
兩臺(tái)協(xié)作機(jī)器人使用從微調(diào)的大型行為模型(LBMs)中獲得的自主評(píng)估部署來(lái)執(zhí)行長(zhǎng)時(shí)程行為,例如安裝自行車轉(zhuǎn)盤(pán)。| 來(lái)源:豐田研究院
豐田研究院(TRI)本周發(fā)布了其關(guān)于大型行為模型(LBMs)的研究結(jié)果,這些模型可用于訓(xùn)練通用機(jī)器人。該研究顯示,單個(gè) LBM 可以學(xué)習(xí)數(shù)百個(gè)任務(wù),并利用先驗(yàn)知識(shí)以 80%更少的訓(xùn)練數(shù)據(jù)獲取新技能。
LBMs 在大型、多樣化的操作數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練。盡管它們?cè)絹?lái)越受歡迎,但機(jī)器人社區(qū)對(duì) LBMs 實(shí)際上能提供什么仍然知之甚少。TRI 的工作旨在通過(guò)這項(xiàng)研究揭示算法和數(shù)據(jù)集設(shè)計(jì)方面的最新進(jìn)展。
總體而言,TRI 表示其發(fā)現(xiàn)大體上支持了近期 LBM 風(fēng)格機(jī)器人基礎(chǔ)模型的熱度激增,并補(bǔ)充了大規(guī)模在多樣化機(jī)器人數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練是通往更強(qiáng)大機(jī)器人的可行路徑的證據(jù),盡管存在一些需要注意的方面。
通用型機(jī)器人承諾一個(gè)未來(lái),即家用機(jī)器人可以提供日常協(xié)助。然而,我們尚未達(dá)到任何機(jī)器人都能處理普通家庭任務(wù)的階段。TRI 表示,LBMs,即輸入機(jī)器人傳感器數(shù)據(jù)并輸出動(dòng)作的具身 AI 系統(tǒng),可能會(huì)改變這一點(diǎn)。
2024 年,TRI 因其快速機(jī)器人教學(xué) LBMs 的工作贏得了機(jī)器人創(chuàng)新獎(jiǎng) 。
TRI 研究發(fā)現(xiàn)的概述
TRI 在近 1700 小時(shí)的機(jī)器人數(shù)據(jù)上訓(xùn)練了一系列基于擴(kuò)散的 LBMs,并進(jìn)行了 1800 次真實(shí)世界的評(píng)估部署和超過(guò) 47000 次模擬部署,以嚴(yán)格研究它們的性能。它發(fā)現(xiàn) LBMs:
相對(duì)于從頭開(kāi)始制定的策略,能夠持續(xù)提升性能
在需要抵抗各種環(huán)境因素的挑戰(zhàn)性環(huán)境中,能夠以3-5倍更少的數(shù)據(jù)量學(xué)習(xí)新任務(wù)
隨著預(yù)訓(xùn)練數(shù)據(jù)的增加,性能穩(wěn)步提升
即使只有幾百小時(shí)多樣化的數(shù)據(jù),并且每個(gè)行為只有幾百個(gè)演示,性能也顯著提升,TRI 表示。預(yù)訓(xùn)練在比預(yù)期更早的規(guī)模上提供了持續(xù)的性能提升。目前還沒(méi)有一個(gè)值得注意的機(jī)器人數(shù)據(jù)量,但收益在達(dá)到那個(gè)規(guī)模之前就已經(jīng)顯現(xiàn)——這對(duì)于實(shí)現(xiàn)數(shù)據(jù)獲取和自舉性能的良性循環(huán)是一個(gè)有希望的跡象,TRI 聲稱。
TRI 的評(píng)估套件包括幾個(gè)新穎且極具挑戰(zhàn)性的長(zhǎng)時(shí)程真實(shí)世界任務(wù);在這種設(shè)置下微調(diào)和評(píng)估,LBM 預(yù)訓(xùn)練提高了性能,盡管這些行為與預(yù)訓(xùn)練任務(wù)高度不同。
在 TRI 的 LBMs 的架構(gòu)和數(shù)據(jù)中
LBM 架構(gòu)被實(shí)例化為一個(gè)擴(kuò)散 Transformer,用于預(yù)測(cè)機(jī)器人動(dòng)作。| 來(lái)源:豐田研究院
TRI 的 LBMs 是具有多模態(tài) ViT 視覺(jué)語(yǔ)言編碼器和基于 AdaLN 條件編碼觀測(cè)值的 Transformer 去噪頭的多任務(wù)擴(kuò)散策略。這些模型消耗手腕和場(chǎng)景相機(jī)、機(jī)器人本體感覺(jué)和語(yǔ)言提示,并預(yù)測(cè) 16 個(gè)時(shí)間步長(zhǎng)(1.6 秒)的動(dòng)作片段。
研究人員在 468 小時(shí)內(nèi)部部收集的雙臂機(jī)器人遙操作數(shù)據(jù)、45 小時(shí)模擬收集的遙操作數(shù)據(jù)、32 小時(shí)通用操作界面(UMI)數(shù)據(jù)以及從 Open X-Embodiment 數(shù)據(jù)集精心策劃的約 1150 小時(shí)互聯(lián)網(wǎng)數(shù)據(jù)上訓(xùn)練了 LBMs。
雖然模擬數(shù)據(jù)的比例很小,但將其包含在 TRI 的預(yù)訓(xùn)練混合中,確保它可以評(píng)估相同的 LBM 檢查點(diǎn),無(wú)論是在模擬還是真實(shí)環(huán)境中。
TRI 的評(píng)估方法
TRI 在模擬和現(xiàn)實(shí)世界中,使用雙臂平臺(tái)在各種任務(wù)和環(huán)境條件下評(píng)估其 LBM 模型。 | 來(lái)源:豐田研究院
TRI 在使用 Franka Panda FR3 機(jī)械臂和最多六個(gè)攝像頭的物理和 Drake 模擬雙臂工作站上評(píng)估其大型行為模型(LBMs)——每只手腕最多兩個(gè)攝像頭,以及兩個(gè)靜態(tài)場(chǎng)景攝像頭。
TRI 在已見(jiàn)任務(wù)(存在于預(yù)訓(xùn)練數(shù)據(jù)中)和未見(jiàn)任務(wù)(TRI 用于微調(diào)其預(yù)訓(xùn)練模型的任務(wù))上評(píng)估模型。TRI 的評(píng)估套件包括 16 個(gè)在預(yù)訓(xùn)練期間模擬的已見(jiàn)任務(wù)、3 個(gè)真實(shí)世界的已見(jiàn)任務(wù)、5 個(gè)之前未見(jiàn)的長(zhǎng)時(shí)程模擬任務(wù)和 5 個(gè)復(fù)雜的之前未見(jiàn)的長(zhǎng)時(shí)程真實(shí)世界任務(wù)。
每個(gè)模型都通過(guò)每個(gè)真實(shí)世界任務(wù)50次運(yùn)行和每個(gè)模擬任務(wù)200次運(yùn)行進(jìn)行測(cè)試。這使我們的分析具有高度統(tǒng)計(jì)學(xué)意義,預(yù)訓(xùn)練模型在29個(gè)任務(wù)上進(jìn)行了4200次運(yùn)行評(píng)估。
TRI 表示它仔細(xì)控制初始條件,以確保在現(xiàn)實(shí)世界和模擬中保持一致。它還在現(xiàn)實(shí)世界中進(jìn)行盲法 A/B 風(fēng)格的測(cè)試,并通過(guò)順序假設(shè)檢驗(yàn)框架計(jì)算統(tǒng)計(jì)顯著性。
許多研究人員觀察到的效應(yīng)只有在比標(biāo)準(zhǔn)更大的樣本量和仔細(xì)的統(tǒng)計(jì)測(cè)試中才能測(cè)量,而這種統(tǒng)計(jì)測(cè)試在實(shí)證機(jī)器人學(xué)中并不標(biāo)準(zhǔn)。由于實(shí)驗(yàn)變化的噪聲很容易掩蓋所測(cè)量的效應(yīng),許多機(jī)器人學(xué)論文可能是在測(cè)量由于統(tǒng)計(jì)能力不足而產(chǎn)生的統(tǒng)計(jì)噪聲。
TRI 從研究中得出的主要結(jié)論
團(tuán)隊(duì)的主要結(jié)論之一是,微調(diào)性能隨著預(yù)訓(xùn)練數(shù)據(jù)的增加而平穩(wěn)提高。在我們考察的數(shù)據(jù)規(guī)模下,TRI 沒(méi)有發(fā)現(xiàn)性能斷點(diǎn)或明顯的拐點(diǎn);人工智能的擴(kuò)展在機(jī)器人領(lǐng)域依然有效。
TRI 在非微調(diào)的預(yù)訓(xùn)練大型行為模型上經(jīng)歷了混合結(jié)果。令人鼓舞的是,它發(fā)現(xiàn)單個(gè)網(wǎng)絡(luò)能夠同時(shí)學(xué)習(xí)許多任務(wù),但它沒(méi)有觀察到從頭開(kāi)始的單任務(wù)訓(xùn)練在沒(méi)有微調(diào)的情況下始終具有優(yōu)勢(shì)。TRI 預(yù)計(jì)這部分是由于其模型的語(yǔ)言引導(dǎo)能力。
在內(nèi)部測(cè)試中,TRI 表示已經(jīng)看到一些有希望的早期跡象,表明更大的 VLA 原型克服了部分這種困難,但需要更多的工作來(lái)嚴(yán)格檢驗(yàn)這種效果在高語(yǔ)言能力模型中的表現(xiàn)。
在注意事項(xiàng)方面,TRI 表示微小的設(shè)計(jì)選擇,如數(shù)據(jù)歸一化,可以對(duì)性能產(chǎn)生重大影響,往往超過(guò)架構(gòu)或算法的變更。重要的是要仔細(xì)隔離這些設(shè)計(jì)選擇,以避免混淆性能變化的來(lái)源。
評(píng)論