人形機器人技術(shù)的進展、實踐與挑戰(zhàn)
2024 年4 月,由中國機器人網(wǎng)、智能谷產(chǎn)業(yè)園主辦的“2024 中國人形機器人生態(tài)大會”在上海舉行。會上,褚君浩院士[1]和孫立寧院士[2]對人形機器人的傳感和控制技術(shù)做了介紹,隨后,浙江大學(xué)的熊蓉教授分享了其觀察和實踐。
本文引用地址:http://www.2s4d.com/article/202504/469078.htm本文主要介紹了熊蓉教授多年來的科研成果,包括三部分:①人形機器人的發(fā)展背景與意義,②核心關(guān)鍵技術(shù)研究進展,③發(fā)展趨勢與挑戰(zhàn)。
熊蓉教授是浙江大學(xué)控制科學(xué)與工程學(xué)院教授、博士生導(dǎo)師,浙江大學(xué)智能系統(tǒng)與控制研究所機器人實驗室主任。
1 人形機器人的發(fā)展背景與意義
人形機器人原來有很多的稱呼,過去習(xí)慣于稱為“仿人機器人”,但是這兩年明確定義為是“人形機器人”。
1.1 人形機器人的特點
常規(guī)的機器人是模仿人的部分或全部功能和智能;但是人形機器人更強調(diào)類人的形態(tài),這種類人的形態(tài)使它能夠適應(yīng)人類為自己建造的環(huán)境,使用人類為自己設(shè)計制作的工具,并且能夠有更好的人機交互。所以它具有更強的通用性。這種通用性使它能夠無縫地轉(zhuǎn)換人類現(xiàn)在所從事的一些工作,所以它是一個未來的重大的產(chǎn)業(yè)。
人形機器人屬于專用型的機器人,能力是超越人類的:會有更強的負載,更快的工作的節(jié)拍,更高的精度,更強的一致性。
但是現(xiàn)在這種專用的人形機器人還是無法實現(xiàn)的——還需要給它們布置專屬的環(huán)境,但是未來有望融入到人類生活的方方面面。這種類人的形態(tài)可以直接實現(xiàn)與人的無縫替換,所以具有更加廣闊的市場。
1.2 市場預(yù)測與布局
國內(nèi)外做了非常樂觀的市場預(yù)測,例如高盛近期的市場預(yù)測樂觀度進一步提高了,認為如果能夠克服產(chǎn)品設(shè)計、用例、技術(shù)、成本及廣泛公眾接受度等障礙,到2035年人形機器人市場規(guī)模將達1,520億美元,與電動汽車市場旗鼓相當(dāng)。馬斯克預(yù)測智能人形機器人將超越人類數(shù)量,市場規(guī)模將達萬億級。
這兩年一些國內(nèi)外的產(chǎn)業(yè)界巨頭開始布局人形機器人的賽道,從整機到核心零部件,從里面的智能控制器到智能計算等。
總體來看,人形機器人已進入了一個新的突破窗口期:從實驗室的樣機研發(fā),進入到了產(chǎn)品的樣機以及未來產(chǎn)業(yè)化發(fā)展的早期階段。
我國也非常重視人形機器人的發(fā)展,已經(jīng)上升為國家戰(zhàn)略性新興技術(shù)和產(chǎn)業(yè)方向。我國從2022 年就開始了相關(guān)的發(fā)展論證,2023 年工信部先后出臺了揭榜掛帥的項目[3],以及《人形機器人創(chuàng)新發(fā)展指導(dǎo)意見》。在今年1 月,工信部等7 部門發(fā)布了《關(guān)于推動未來產(chǎn)業(yè)創(chuàng)新發(fā)展的實施意見》里,“創(chuàng)新標志性產(chǎn)品”的第一個就是人形機器人。
2 浙大的研發(fā)實踐
2.1 人形機器人的關(guān)鍵技術(shù)
人形機器人并不是今天才有的系統(tǒng),早在上個世紀六十年代就推出了第一臺雙足行走機器人。
人形機器人一直以來都被認為是機器人領(lǐng)域中的一個技術(shù)競爭制高點,是國與國之間競爭的科技的顯示點。其主要難點在于三方面(如表1)。
表1 人形機器人的主要挑戰(zhàn)
首先,它幾乎是機器人和人工智能(AI)技術(shù)的集大成者,涉及了機器人技術(shù)的方方面面,并且整個系統(tǒng)的復(fù)雜性也導(dǎo)致了整機系統(tǒng)的研制是一個具有很高挑戰(zhàn)性的問題。
除了整機,還需要融合各個部件的功能、性能、材料等,同時也對這些部件提出了高要求,例如關(guān)節(jié)要求力矩大、速度快、體積小、重量輕、高功率密度等。
第二,這個系統(tǒng)是本質(zhì)不穩(wěn)定的系統(tǒng)。例如人有時單腳支撐,如果跑步可能雙腳騰空,可見人的足和地面接觸的空間和時間有時候非常少,人的穩(wěn)定控制會發(fā)生在這樣的一個小空間和時間段里,但對于人形機器人來說,這種穩(wěn)定控制很難。因此,盡管現(xiàn)在很多機器人實現(xiàn)了穩(wěn)定的行走,但是不能到一個真實的環(huán)境里去適應(yīng)各種環(huán)境的擾動,例如去適應(yīng)在作業(yè)過程中,由于手臂的用力而帶來的擾動,同時能夠去保證它的穩(wěn)定性以及作業(yè)的準確性。
第三,作為一種通用的形態(tài),它必須能在各種環(huán)境里去執(zhí)行各種任務(wù),這就對它的智能性提出了高要求,這也是AI 領(lǐng)域中的一個重要的發(fā)展目標——能夠向通用AI 發(fā)展。
在工信部的《人形機器人創(chuàng)新發(fā)展指導(dǎo)意見》里明確的一個思想是以應(yīng)用來牽引,然后通過整機來帶動整個生態(tài)的發(fā)展。其中有幾個核心,一是包括整機和部件,還有小腦、大腦,以及要去支持其開發(fā)的供應(yīng)鏈和工具鏈,由此來形成整個的行業(yè)應(yīng)用和生態(tài)建設(shè)(如圖1)。
圖1 對《人形機器人創(chuàng)新發(fā)展指導(dǎo)意見》的部分解讀圖
2.2 研發(fā)歷程
熊蓉教授團隊是從2000年開始進行機器人研究的,關(guān)注的是機器人的智能性,包括智能移動和操作。2006年時看到了人形機器人是技術(shù)的集大成者和其挑戰(zhàn)性,開始了對人形機器人的研發(fā)。
2006 年后主要以參加RoboCup 比賽的機器人為平臺進行技術(shù)積累,包括了機器人的設(shè)計制作,涵蓋運動控制、平衡控制以及集成了單目視覺來進行實時的定位、規(guī)劃、各種運動的實時生成。該平臺在國際比賽上獲得了4 次亞軍,在國內(nèi)獲得了多次冠軍。
1)打兵乓球機器人
2008—2011 年,熊蓉教授團隊在國家863 項目的支持下,研制了兩個能夠跟人或者是雙機器人進行乒乓球?qū)Υ虻娜诵螜C器人(圖2)。這里除了選擇合適的形態(tài)及部件集成,更主要的還解決了智能的視圖控制。這堪稱國際上第一個能夠在線動態(tài)視圖控制快速飛行的球并擊打的人形機器人,包括能夠基于視覺對球進行準確的檢測、定位以及對整條軌跡的預(yù)測。其用5 幀的數(shù)據(jù)來實現(xiàn)小于4 ms 的時間誤差和小于1 cm 位置誤差的整條軌跡的預(yù)測,然后在線做全身的運動規(guī)劃——這是一個冗余自由度的在線規(guī)劃,并且去解決在手臂擊球的加速度下會造成身體的不穩(wěn)定,如何進行平衡控制來保持穩(wěn)定,以及它的準確擊球。
圖2 打乒乓球的人形機器人
2011 年10 月成果發(fā)布后,它得到了國內(nèi)外的廣泛關(guān)注。但是該系統(tǒng)還有一些問題尚待解決,例如行走速度和穩(wěn)定性還有問題——它只能實現(xiàn)1.2 km/h 的行走,并且只能在平整地面上行走;在打球時,因為行走的速度跟不上,主要是站立打球,用下肢來做平衡控制。
2)快速穩(wěn)定行走的人形機器人
所以從2012 年起,熊蓉教授團隊主要研究在室內(nèi)外能夠快速穩(wěn)定行走的人形機器人,包括能夠立位混合控制的關(guān)節(jié)、腿,以及全身協(xié)調(diào)的立位混合控制。2022年時,新的人形機器人能夠?qū)崿F(xiàn)在室內(nèi)外快速穩(wěn)定地行走,包括適應(yīng)各種地形。
● 部件/ 關(guān)節(jié)的研制。涵蓋高功率密度的電機,更大減速比的行星減速器,以及做成高集成性的一體化關(guān)節(jié)。
● 運動建模和控制。目前國際上對人形機器人行走的運動控制有三條技術(shù)路線(圖3)。一種是從機理出發(fā)的,對整機進行運動學(xué)和動力學(xué)的建模,然后設(shè)計其穩(wěn)定規(guī)則,來進行它的規(guī)劃控制。第二種是像特斯拉所展示的,把人的運動如何直接映射到機器人上面,使它能夠產(chǎn)生更加擬人化的動作。第三種是針對機理模型控制,這需要大量的挑戰(zhàn),非常依賴于模型的準確性,對于復(fù)雜環(huán)境的適應(yīng)性需要人工的介入——如何去提高它的魯棒性,而研究強化學(xué)習(xí)的方法。
熊蓉教授團隊在這三個方面都開展了一些工作。
例如,在“強化學(xué)習(xí)”方面,2020 年時,他們在四足機器人上首先做了一項工作,通過強化學(xué)習(xí)去生成各種動作,例如生成各種基本步態(tài),然后再把基本步態(tài)融合,形成對于陌生環(huán)境的適應(yīng)性,能夠自動選擇步態(tài)的組合。今年年初,他們又把這種方法延伸到了人形機器人上,以實現(xiàn)對不同地面的適應(yīng)。
圖3 行走運動控制的技術(shù)路線
在模型學(xué)習(xí)“人機映射”學(xué)習(xí)方面,如何把人的復(fù)雜動作快速映射到機器人上?最初是把人的手與上肢的動作映射到一臺機器人上。
這里主要解決了兩點。傳統(tǒng)的最優(yōu)化的映射比較依賴初值(需要人工給較好的初值),而且只能實現(xiàn)一些簡單的動作,需要的優(yōu)化時間較長。他們把最優(yōu)化和目前火熱的深度學(xué)習(xí)結(jié)合后,提出了圖形神經(jīng)網(wǎng)絡(luò)下的最優(yōu)化的學(xué)習(xí)方法,其優(yōu)勢是:①大幅提升了動作的相似性,而且可以保證可執(zhí)行性和安全性;②最主要的是實現(xiàn)了時間上的大幅提升,能夠快速地把人的各種運動映射到機器人上。
3)語義保持
在利用最新AI技術(shù)方面,他們利用語言和視覺大模型去進一步提升動作的語義保持。例如讓它指胸口,不能映射以后指到脖子或腹部;讓它指鼻尖,就必須是鼻尖。所以通過這種跟新的AI 技術(shù)的結(jié)合,可以實現(xiàn)語義保持,并且能夠快速遷移到新的架構(gòu)上。
4)關(guān)節(jié)壞了仍能行走
另外,足式機器人不可避免地會有一些關(guān)節(jié)出現(xiàn)故障。能否讓它有一定的自適應(yīng)性,依然保持一定的作業(yè)能力?熊蓉教授團隊的成果是:假定在四足機器人上面任意一個關(guān)節(jié)壞了,給它一個鎖定,四足機器人依然能保持直線行走。
5)機器人智能
熊蓉教授團隊的工作更多地還是放在了機器人智能上,從2000年開始在這方面去做了大量的工作。
6)總體設(shè)計思想
總體思想是:如何從傳統(tǒng)的封閉、靜態(tài)的環(huán)境里,走向具有一定未知性和動態(tài)開放的環(huán)境里,讓它能夠長期自主魯棒地工作;以及從依賴人工離線編寫的程序,到具有自適應(yīng)、自學(xué)習(xí)、自進化、自發(fā)育的能力,以逐步適應(yīng)更加豐富的環(huán)境和更加多樣化的作業(yè)(圖4)。
圖4 機器人的技術(shù)發(fā)展目標
在這些方面,熊蓉教授團隊也發(fā)表了一系列的論文。
7)智能移動技術(shù)。
對機器人的長期準確的定位和導(dǎo)航方面做了一些工作,也得到了專家院士的認可,現(xiàn)在一些技術(shù)已經(jīng)在多個領(lǐng)域里有應(yīng)用驗證,例如變電站的巡檢機器人,制造業(yè)里的新型AMR(自主移動機器人),四足機器人在復(fù)雜地形下對人的跟隨等。熊蓉教授團隊的成果也實現(xiàn)了產(chǎn)業(yè)的轉(zhuǎn)化落地,孵化了“迦智科技”去做新型的物流機器人,目前已經(jīng)在制造業(yè)里大規(guī)模應(yīng)用。
8)智能操作技術(shù)
開放場景高效行為的決策
* 有參照人的裝配工作
自從2012 年完成了打乒乓球的機器人之后,熊蓉教授團隊又面向如何能夠去操作更多的對象研究。其中一項工作是對于序列性的作業(yè),能否讓人能夠去展示,然后直接來生成機器人的程序。
即機器人首先對人的動作進行理解,解析出用什么樣的動作,操作了什么樣的物體,達到了什么樣的效果,并且要去解決從感知誤差到執(zhí)行精度要求之間的差距。人類的感知誤差往往是毫米級的;而熊蓉教授團隊的機器人的執(zhí)行精度在0.1 毫米級量級。這需要能夠?qū)崿F(xiàn)準確的對未知的推理,然后實現(xiàn)程序的自動生成。熊蓉教授團隊實現(xiàn)了不同的動作,例如手電筒的開關(guān),包括機器人關(guān)節(jié)對人的行為學(xué)習(xí)以后,用幾分鐘的時間來生成動作。
* 在開放性的環(huán)境里
實際上很難有人的這種參照,需要機器人能夠去自主決策。
在這里,當(dāng)有一個長序列的行為,例如要抓藍色的木塊,但是它有堆疊時抓不到,需要通過推、挪等動作快速地抓到。
再例如很多時候?qū)δ繕宋恢檬怯蟹胖靡蟮模莵砹贤请S機的,怎樣去調(diào)整它的中間狀態(tài)?原來我們都是要依靠人來編程序,把它做一個指定的位置調(diào)整,來保證它最后的實現(xiàn)。但在開放場景里,如何讓機器人能夠自動地生成中間的行為和中間的狀態(tài)?
從學(xué)習(xí)的角度來看,最終目標是明確的,但是中間的目標不明確,因此它也很難來得到數(shù)據(jù)的正確反饋,即正確的數(shù)據(jù)是稀疏的。熊蓉教授團隊在這方面解決了中間的評價器,以及能夠去快速學(xué)習(xí)的問題。進一步地,對于一些開放混雜的場景,需要更多地去適應(yīng)各種各樣的物體,為此,熊蓉教授團隊也引入了語言大模型和視覺大模型。
但是大模型是通過大量數(shù)據(jù)訓(xùn)練形成的,雖然包含了各種各樣的物體,但是還有可能檢測不了一些物體,也會存在當(dāng)物體堆疊在一起的時候,檢測和定位的準確性可能較低,導(dǎo)致機器人執(zhí)行的失敗。
在此情況下,怎樣讓機器人通過它的行為逐步收斂到一個正確的結(jié)果里?熊蓉教授團隊就提出了把語言大模型、視覺大模型和機器人操作的模型去融合學(xué)習(xí),實現(xiàn)了在這種混合場景下的操作,最后來完成工作。
通過這樣一系列的從強化學(xué)習(xí),從語言視覺大模型以及與模仿學(xué)習(xí)的結(jié)合,可以讓機器人來完成桌面的整理。初始它可能是非常混雜的,告訴機器人目標要求后,機器人會進行長序列的規(guī)劃生成,最后來達到指定的要求。
9)伺服控制
與此同時,熊蓉教授團隊在機器人的伺服控制里也做了一系列工作。因為傳統(tǒng)的方式是先人為編好一個最優(yōu)化的目標約束,然后去進行伺服的求解控制。但是這種傳統(tǒng)方法對于場景變化還是有一定的局限性。而熊蓉教授團隊采用學(xué)習(xí)的方法會發(fā)現(xiàn),它其實也是非常依賴于數(shù)據(jù)的,如何去讓它真正地具有泛化性?為此,熊蓉教授團隊提出了一種無模型的方法,能夠?qū)崿F(xiàn)它的端到端的伺服控制,包括能夠去適應(yīng)姿態(tài)的變化、背景的變化,以及能夠去適應(yīng)這種場景的傳感器(例如在應(yīng)用的過程中不小心把傳感器碰動了——它的外參變化了,在這樣的擾動下,它是不是依然能夠去適應(yīng)?),以及如何去讓它適應(yīng)各種場景里的紋理。
● 力控插拔
熊蓉教授團隊也做了力控方面的工作,目前實現(xiàn)了一個軸孔配合容差小于0.1 mm 的高精度的插拔,用1 h的訓(xùn)練、通過2 萬次測試后達到了99.99% 的成功率。相比之下,DeepMind 用8 h,成功率99.98%。而且它具有泛化性,能夠去適應(yīng)不同的接口,包括光模塊、新能源車的充電口以及IT 設(shè)備的USB 口等。對于這些復(fù)雜的形狀,人的操作也要花很多時間,而這種機器人的執(zhí)行速度能夠高于人的速度。
另外,熊蓉教授團隊對人形機器人的移動和操作的協(xié)作,以及人- 機的協(xié)作開展了一系列的研究。
● 手腿協(xié)調(diào)
今年3 月,在浙江省寧波市政府的支持下,“浙江人形機器人創(chuàng)新中心”正式啟動了,也推出了首代產(chǎn)品——領(lǐng)航者1 號,這是在他們前面的基礎(chǔ)上進一步做了一些優(yōu)化改進。同時也更強調(diào)賦予它“類人學(xué)習(xí)”和“操作”能力。
目前行走已完成了在室內(nèi)平整地面的測試,也會進一步去驗證之前在“悟空4”上面所實現(xiàn)的對各種地形的適應(yīng)。但是這一代會更去強調(diào)動作的擬人性,例如能否讓它站起來一點兒,不要老是彎著腿。另外,因為設(shè)計時沒有考慮手會和腿碰觸,所以在走路的時候還是把兩個手舉在那里,來保證它不會產(chǎn)生干擾。所以這些都是下一代產(chǎn)品需要去進一步優(yōu)化改進的地方。
在前面的基礎(chǔ)上,正在思考把熊蓉教授團隊的這種機理模型和模仿學(xué)習(xí)怎么去結(jié)合起來,能夠快速地實現(xiàn)。他們過去還是做的仿真,現(xiàn)在打通了仿真到實物的這條通路,實現(xiàn)了從人到仿真到實物的回路,以期實現(xiàn)把人的動作快速映射到機器人上面。
另外,現(xiàn)在也正在結(jié)合強化學(xué)習(xí),讓它適應(yīng)各種場景——在執(zhí)行各種動作的過程中,依然能夠保持平衡控制——這還是屬于概念性的,是正在做的研發(fā)。
10)倒水添茶和插插頭
熊蓉教授團隊在前面對于環(huán)境物體的檢測識別以及行為決策規(guī)劃基礎(chǔ)上,做了一個集成的demo(圖5),它能夠去倒水添茶,包括人喝完以后它能夠自動地檢測到,然后完成添茶的工作。人放回去的茶杯也是可以任意放置的,機器人會有算法對物體進行檢測以后進行一個精確的定位,然后來進行它的行為的決策和規(guī)劃控制。
圖5 端到端的自動加水
熊蓉教授團隊也把前述的對各種動態(tài)的適應(yīng)性做了一個演示,例如機器人可以去抓插頭,并插到插座上。
插座可以任意地放置,機器人會實現(xiàn)動態(tài)的跟蹤。
關(guān)于速度,考慮到定位的精確性,整個速度還是比較慢的。下一步將會提高它的節(jié)拍,以滿足生產(chǎn)上的高節(jié)拍要求。
同時,也把作業(yè)的能力通過跟持續(xù)進化結(jié)合起來,從原來的0.1 mm 的精準對接,現(xiàn)在能夠?qū)崿F(xiàn)0.03 mm的對接(USB 的定位精度在0.1 mm 左右)。這也是通過自主學(xué)習(xí)的方式來實現(xiàn)的。
熊蓉教授團隊也研發(fā)了一個“靈巧手”,能夠?qū)崿F(xiàn)更快速度的操作,下一步希望能夠去提升其魯棒性。
3 發(fā)展趨勢與挑戰(zhàn)
真正的人形機器人要用到實際的場景里,形成一個產(chǎn)品,還有很多挑戰(zhàn)。
作為一個產(chǎn)品,要實現(xiàn)高可靠、高性能、低成本。
1)亟需高性能、高可靠、低成本的核心零部件
整機的可靠性需要進一步提升,成本要降低,這依賴于核心零部件。核心零部件雖然現(xiàn)在很多,但是還有發(fā)展空間。例如動力部件的功率密度與人形機器人真正實現(xiàn)靈巧運動還有一定差距。也許力矩、速度足夠了,但是體積、重量太大,使人形機器人比較笨重、有一定的威脅感。傳感器也一樣,如何在小體積下做到高精度和高動態(tài)響應(yīng),也是面臨的問題。
除了產(chǎn)業(yè)界在做,學(xué)術(shù)界也在探索一些新的驅(qū)動機理方法,有可能會形成下一代變革性的方法。
2)運動控制
人形機器人要實現(xiàn)各種靈巧的運動作業(yè),運動控制是一個非常重要的基礎(chǔ)。
現(xiàn)在已經(jīng)有了很好的基礎(chǔ),各種技術(shù)路線也有突破,能夠去展示一定的能力。但是它對作業(yè)對象的適應(yīng)性、環(huán)境的適應(yīng)性還是非常有限的。如何去把機器人、環(huán)境、任務(wù)融合起來,如何把現(xiàn)在的三條技術(shù)路線真正地去打通和推動,也依然是需要探索的。
3)人工智能
目前大模型非常熱,但是如果真正把大模型部署到機器人/ 某一環(huán)境里,會發(fā)現(xiàn)還有很多局限性。例如端茶倒水的,熊蓉教授團隊也想到用大模型去做,結(jié)果發(fā)現(xiàn)放一套茶具上去,有可能檢測不出來,哪怕把茶具分開了,也檢測不出來。
可見,現(xiàn)在的大模型依然依靠“見過”的數(shù)據(jù),有一定的泛化能力,但是距離真正的泛化能力還是有一定的距離。
大模型是人的多元智能里的“基礎(chǔ)知識”的一部分,它賦予了語言智能、空間智能、邏輯推理的智能。但是機器人是在一定環(huán)境里去工作的,也是現(xiàn)在AI 提的具身智能(圖6)。
圖6 人的多元智能
實際上,機器人專家一直在做具身智能的研究,讓機器人能夠去適應(yīng)各種環(huán)境條件,自我監(jiān)測,人- 機自然友好地交互協(xié)作。
之前沒有大模型時,機器人專家往往也在把一些AI技術(shù)結(jié)合進來,人為定義一些知識庫、規(guī)則等?,F(xiàn)在有了大模型,相當(dāng)于給機器人的專家提供了一個更好的基礎(chǔ)模型支持。但是這個模型里還有很多不足,甚至有錯誤,如何融合到機器人里,實現(xiàn)它真正能夠作業(yè)的具身智能,也是現(xiàn)在要去研究探索的。
同時,相信具身智能的研究也會反過來去推動大模型,使其更加準確。
參考文獻:
[1] 迎九.褚君浩院士:人形機器人的感知發(fā)展與探索.EEPW,2024(6):1-5.
[2] “人形機器人”的智能感知與控制技術(shù).EEPW,2024(7):22-25.
[3] 工信部.關(guān)于組織開展2023年未來產(chǎn)業(yè)創(chuàng)新任務(wù)揭榜掛帥申報工作的通知.(2023-9-13).
(本文來源于《EEPW》202408)
評論