大模型來了,自動(dòng)駕駛還遠(yuǎn)嗎?關(guān)鍵看“眼睛”(3)
感知技術(shù)的挑戰(zhàn)與發(fā)展趨勢(shì)近年來目標(biāo)檢測(cè)算法飛速發(fā)展,精度獲得了極大提升,但仍然面對(duì)諸多挑戰(zhàn),包括長(zhǎng)尾問題、如何應(yīng)對(duì)極端天氣等。長(zhǎng)尾問題感知任務(wù)是典型的長(zhǎng)尾問題,這已成為業(yè)界共識(shí)。如何挖掘長(zhǎng)尾問題案例,并持續(xù)提升技術(shù)能力是感知領(lǐng)域關(guān)注的重點(diǎn)。近年來業(yè)界廣泛認(rèn)同通過數(shù)據(jù)閉環(huán)的方式來解決長(zhǎng)尾問題?;趯W(xué)習(xí)的方法依賴數(shù)據(jù)的輸入,而現(xiàn)實(shí)世界復(fù)雜多變,很難窮舉出所有場(chǎng)景,這就依賴高效的數(shù)據(jù)閉環(huán)體系,有效挖掘長(zhǎng)尾場(chǎng)景,積累足夠的高價(jià)值場(chǎng)景數(shù)據(jù),并能夠快速完成模型的迭代更新,圖14展示了一種非常極端的場(chǎng)景,即帶著錐桶移動(dòng)的貨車。圖 14:帶錐桶移動(dòng)的車極端天氣的挑戰(zhàn)自動(dòng)駕駛感知遇到的另一大挑戰(zhàn)是極端天氣。無人車要想不間斷運(yùn)營(yíng),不可避免會(huì)遇到雨、雪、霧等極端天氣,而極端天氣會(huì)對(duì)傳感器數(shù)據(jù)造成極大影響,從而影響感知的準(zhǔn)確性,甚至造成自動(dòng)駕駛不可用。感知必須解決極端天氣帶來的挑戰(zhàn),從而實(shí)現(xiàn)全天候運(yùn)行能力。夜間大雨天可能會(huì)造成攝像頭成像模糊,如圖15所示,此時(shí)從圖像獲得穩(wěn)定感知結(jié)果異常困難。而激光雷達(dá)在極端天氣下容易產(chǎn)生大量噪聲,如圖16所示,此時(shí)如何避免漏檢和誤檢變得異常棘手。
圖15:大雨天造成攝像頭夜間成像模糊
圖16:大雪天激光雷達(dá)產(chǎn)生大量噪聲
感知技術(shù)的兩****展方向從近年來業(yè)界的發(fā)展來看,感知技術(shù)的演進(jìn)主要朝著兩個(gè)方向發(fā)展。一方面是以搭建高效的數(shù)據(jù)閉環(huán)體系為主,解決長(zhǎng)尾問題,通過云端大模型、大數(shù)據(jù)實(shí)現(xiàn)高效數(shù)據(jù)挖掘與模型迭代。另一方面不斷發(fā)展車端模型架構(gòu),用更復(fù)雜的模型架構(gòu)來提升感知精度,這一方面隨著Transfomer架構(gòu)所展現(xiàn)出來的強(qiáng)大能力,以基于Transformer的BEV融合感知為代表,涌現(xiàn)出了不少優(yōu)秀的工作。
馭勢(shì)感知技術(shù)實(shí)踐多模態(tài)融合感知在多模態(tài)融合感知方面,我們自研了圖像、點(diǎn)云融合網(wǎng)絡(luò)。圖17給出了網(wǎng)絡(luò)的示意圖。我們以長(zhǎng)時(shí)序點(diǎn)云和圖像數(shù)據(jù)作為輸入,分別利用2D和3D特征提取網(wǎng)絡(luò)對(duì)應(yīng)模態(tài)的特征,并在特征級(jí)進(jìn)行融合。網(wǎng)絡(luò)首先會(huì)在點(diǎn)云和圖像特征上分別預(yù)測(cè)2D和3D目標(biāo)位置及分類信息,最后通過將點(diǎn)云投影到圖像上進(jìn)行位置關(guān)聯(lián)、深度搜索以及3D位置修正等方法,最終輸出融合的3D目標(biāo)。該融合網(wǎng)絡(luò)的特點(diǎn)是輕量,可在嵌入式平臺(tái)達(dá)到實(shí)時(shí)性能。我們充分利用了大規(guī)模的預(yù)訓(xùn)練模型來提升圖像分支的能力。多模態(tài)融合感知網(wǎng)絡(luò)往往需要同步的點(diǎn)云、圖像數(shù)據(jù),而此類數(shù)據(jù)往往比較稀缺,對(duì)數(shù)據(jù)同步精度要求較高,聯(lián)合標(biāo)注也更加昂貴,周期更長(zhǎng)。自研網(wǎng)絡(luò)在此方面顯示出了非常高的靈活性。在量化評(píng)估中發(fā)現(xiàn),該融合策略對(duì)感知距離和分類精度較純點(diǎn)云網(wǎng)絡(luò)提升非常明顯,并且在雨天等極端天氣場(chǎng)景下有非常強(qiáng)的魯棒性,圖18中展示了我們利用該網(wǎng)絡(luò)在低線束雷達(dá)配置下實(shí)現(xiàn)了140+米的穩(wěn)定感知。
圖17:馭勢(shì)自研融合感知網(wǎng)絡(luò)架構(gòu)
圖 18:融合感知網(wǎng)絡(luò)利用低線束雷達(dá)和攝像頭實(shí)現(xiàn)140米處的目標(biāo)檢測(cè)視覺BEV感知在BEV感知方面,我們自研了基于多相機(jī)的純視覺BEV感知網(wǎng)絡(luò),其架構(gòu)如圖19所示。我們的框架以長(zhǎng)時(shí)序、多視角相機(jī)捕捉到的圖片為輸入。時(shí)序多幀、多視角的圖片會(huì)由圖像基礎(chǔ)網(wǎng)絡(luò),例如ResNet生成多尺度的特征。整個(gè)框架是基于query查詢向量,經(jīng)由Transformer網(wǎng)絡(luò)完成特征收集。query向量會(huì)經(jīng)過self-attention和cross-attention來更新特征,經(jīng)過多層****后,更新后的query會(huì)被用來預(yù)測(cè)最終的3D目標(biāo)類別、位置、大小、旋轉(zhuǎn)以及速度信息。我們?cè)O(shè)計(jì)了時(shí)空對(duì)齊且計(jì)算稀疏的cross-attention模塊,使得我們的網(wǎng)絡(luò)取得先進(jìn)精度的同時(shí)又具備實(shí)時(shí)性的工業(yè)部署潛力。該模型在nuScenes視覺3D目標(biāo)檢測(cè)排行榜中取得第三名的成績(jī)(2022),圖20和圖21分別展示了該網(wǎng)絡(luò)在Nuscenes數(shù)據(jù)集的評(píng)估結(jié)果及其可視化結(jié)果。
圖 19:網(wǎng)絡(luò)架構(gòu)示意圖
圖20:馭勢(shì)BEV感知網(wǎng)絡(luò)在Nuscenes測(cè)試集的評(píng)估結(jié)果
圖21:馭勢(shì)自研BEV網(wǎng)絡(luò)在Nuscenes數(shù)據(jù)集預(yù)測(cè)結(jié)果全景分割以往基于點(diǎn)云的實(shí)例分割任務(wù)主要分為proposal-base和proposal-free方法。proposal-based方法依賴于目標(biāo)檢測(cè)器的性能,而proposal-free的方法因?yàn)椴捎脝l(fā)式的聚類方法,耗時(shí)比較高。因此,我們提出了一種新穎的Panoptic-PHNet點(diǎn)云全景分割網(wǎng)絡(luò),該網(wǎng)絡(luò)預(yù)測(cè)實(shí)例的中心點(diǎn),而無需object-level任務(wù)的學(xué)習(xí),其網(wǎng)絡(luò)架構(gòu)如圖22所示。該工作在nuScenes的全景分割挑戰(zhàn)賽取得第一名的成績(jī),論文入選CVPR 2022。在取得高精度的同時(shí),該網(wǎng)絡(luò)推理速度達(dá)到數(shù)十FPS,滿足了實(shí)時(shí)性的要求,圖23給出了該網(wǎng)絡(luò)與其他公開方法的對(duì)比結(jié)果。
圖22:Panoptic-PHNet網(wǎng)絡(luò)架構(gòu)
圖23:馭勢(shì)全景分割網(wǎng)絡(luò)和公開方法精度對(duì)比結(jié)果
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。