大模型來了,自動(dòng)駕駛還遠(yuǎn)嗎?關(guān)鍵看“眼睛”(2)
典型方法如BEVFormer(其原理圖如圖8所示),該方法預(yù)先生成稠密的空間位置(含不同的高度,且不隨訓(xùn)練更新),每個(gè)位置投影到各圖片后,會(huì)和投影位置局部的數(shù)個(gè)像素塊發(fā)生交互來提取特征(基于Deformable DETR),相比于DETR3D,每個(gè)3D點(diǎn)可以提取到更多的特征。圖 8:BEVFormer網(wǎng)絡(luò)原理圖[6]全局注意力典型方法如PETR,該方法強(qiáng)調(diào)保持2D目標(biāo)檢測器DETR的框架,探索3D檢測需要做哪些適配。PETR同樣利用稀疏的3D點(diǎn)(來自object queries)來“搜索”圖像特征,但不像DETR3D或BEVFormer把3D點(diǎn)投影回圖片,而是基于標(biāo)準(zhǔn)的attention模塊,每個(gè)3D點(diǎn)會(huì)和來自全部圖片的所有像素交互。
- 3D點(diǎn)云目標(biāo)檢測方法
點(diǎn)云能提供豐富的場景3D信息,廣泛被自動(dòng)駕駛企業(yè)所采用。根據(jù)神經(jīng)網(wǎng)絡(luò)對點(diǎn)云輸入的不同表示,可將點(diǎn)云目標(biāo)檢測分為基于體素的方法,如SECOND、VoxelNet等;基于柱體的方法,如PointPillar等;以及基于點(diǎn)的方法,如PointRCNN等;基于點(diǎn)的方法往往計(jì)算量大,推理速度較慢,車端部署往往需要平衡速度和精度,SECOND和PointPillar是當(dāng)前較為流行的方法,圖9展示了PointPillar的網(wǎng)絡(luò)架構(gòu)。而依據(jù)檢測頭的不同,又可分為anchor-based方法和anchor-free的方法,PointPillar以及SECOND均為anchor-based方法。Anchor-free方法以CenterPoint為代表,其思想是直接預(yù)測目標(biāo)的中心點(diǎn),而無需生成預(yù)描框,圖10展示了其網(wǎng)絡(luò)架構(gòu)。圖9:PointPillar網(wǎng)絡(luò)架構(gòu)[7]
圖10:CenterPoint網(wǎng)絡(luò)架構(gòu)[8]
- 多傳感器融合方法
單模態(tài)目標(biāo)檢測往往受限于傳感器的特性,目前自動(dòng)駕駛領(lǐng)域中廣泛采用多模態(tài),即多傳感器融合的技術(shù)方案。基于Frustum視錐的檢測器F-PointNet,首先在2D圖像上提取2D框,以此過濾出視錐區(qū)域的點(diǎn)云,再利用PointNet網(wǎng)絡(luò)進(jìn)行分類和位置預(yù)測,此方法依賴2D檢測器的精度,并且速度較慢。多傳感器融合(MV3D)利用了圖像、點(diǎn)云俯視圖,以及點(diǎn)云平視距離圖(Range Image)作為輸入,分別對三種視圖提取特征,并在俯視圖上生成3D Proposal,利用3D Proposal提取對應(yīng)的其他模態(tài)的特征圖,最終將三種模態(tài)的特征融合,在融合后的特征層預(yù)測目標(biāo)位置。其網(wǎng)絡(luò)架構(gòu)如圖11所示。圖11:MV3D網(wǎng)絡(luò)架構(gòu)[9]MV3D類方法在特征融合階段各個(gè)模態(tài)的維度不盡相同,如圖像特征為二維特征,而點(diǎn)云特征為三維,使得特征融合較為困難。近年來,基于BEV視圖的融合方案逐漸流行,其基本思想是將各個(gè)模態(tài)的特征轉(zhuǎn)換到BEV空間進(jìn)行融合,BEV融合方法在多傳感器融合方面占據(jù)了主導(dǎo)地位。目前依據(jù)網(wǎng)絡(luò)架構(gòu)不同,BEV融合方法主要可分為兩類,一類是基于DETR-based方法,代表工作如FUTR3D等,圖12展示了FUTR3D的網(wǎng)路架構(gòu);另一類是BEV-based方法如BEVFusio等,圖13給出了BEVFusion的網(wǎng)絡(luò)架構(gòu)。
圖12:FUTR3D網(wǎng)絡(luò)架構(gòu)[10]
圖13:BEVFusion網(wǎng)絡(luò)架構(gòu)[11]
目標(biāo)跟蹤在自動(dòng)駕駛感知任務(wù)中,我們除了需要預(yù)測目標(biāo)的位置、分類等信息外,還需要給出目標(biāo)的速度和運(yùn)動(dòng)方向,即對目標(biāo)進(jìn)行連續(xù)的跟蹤。當(dāng)前目標(biāo)跟蹤主要有兩種技術(shù)方案,一種是以卡爾曼濾波技術(shù)為基礎(chǔ),首先對目標(biāo)進(jìn)行關(guān)聯(lián),再利用卡爾曼濾波器預(yù)測目標(biāo)的速度方向。另一種是以深度學(xué)習(xí)網(wǎng)絡(luò)為基礎(chǔ),通過連續(xù)幀時(shí)序網(wǎng)絡(luò)來預(yù)測目標(biāo)的速度、方向。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。