博客專欄

EEPW首頁(yè) > 博客 > 史上最全綜述:3D目標(biāo)檢測(cè)算法匯總?。?)

史上最全綜述:3D目標(biāo)檢測(cè)算法匯總?。?)

發(fā)布人:數(shù)據(jù)派THU 時(shí)間:2022-10-20 來(lái)源:工程師 發(fā)布文章
9自動(dòng)駕駛系統(tǒng)中的3D目標(biāo)檢測(cè)
自動(dòng)駕駛中的端到端學(xué)習(xí)


3D目標(biāo)檢測(cè)是感知系統(tǒng)的關(guān)鍵組成部分,3D目標(biāo)檢測(cè)器的性能將對(duì)跟蹤、預(yù)測(cè)和規(guī)劃等下游任務(wù)產(chǎn)生深遠(yuǎn)影響。因此,從系統(tǒng)的角度來(lái)看,3D目標(biāo)檢測(cè)模型與其他感知任務(wù)以及下游任務(wù)聯(lián)合訓(xùn)練,將是更好的自動(dòng)駕駛解決方案。
一個(gè)挑戰(zhàn)是如何將所有駕駛?cè)蝿?wù)包含在一個(gè)統(tǒng)一框架中,并以端到端的方式聯(lián)合訓(xùn)練這些任務(wù)。
聯(lián)合感知和預(yù)測(cè)。很多方法通過(guò)感知和跟蹤3D目標(biāo),然后以端到端的方式預(yù)測(cè)它們的未來(lái)軌跡。FaF[160]是一項(xiàng)開(kāi)創(chuàng)性工作,它提出使用單個(gè)3D卷積聯(lián)合預(yù)測(cè)3D目標(biāo)檢測(cè)、跟蹤和軌跡預(yù)測(cè)。
這種設(shè)計(jì)范式被許多論文改進(jìn),例如[21]利用地圖信息,[125]引入交互式 Transformer,[350]設(shè)計(jì)時(shí)空交互式網(wǎng)絡(luò),[298]提出時(shí)空金字塔網(wǎng)絡(luò),[138]循環(huán)執(zhí)行所有任務(wù),[204]涉及將定位任務(wù)引入系統(tǒng)。
聯(lián)合感知、預(yù)測(cè)和規(guī)劃。很多工作努力將感知、預(yù)測(cè)和規(guī)劃納入一個(gè)統(tǒng)一的框架。與聯(lián)合感知和預(yù)測(cè)方法相比,整個(gè)系統(tǒng)可以通過(guò)將運(yùn)動(dòng)規(guī)劃添加到端到端流程中,并從規(guī)劃反饋信息中得到收益。
很多方法提出來(lái)改善這個(gè)框架,例如[229]引入語(yǔ)義占用圖以產(chǎn)生可解釋的中間表示,[290]將空間注意力納入框架,[341]提出深度結(jié)構(gòu)化網(wǎng)絡(luò),[22]提出無(wú)地圖方法,[53] 產(chǎn)生一組不同的未來(lái)軌跡。
一個(gè)完整的端到端自動(dòng)駕駛系統(tǒng)應(yīng)該是這樣子的:自動(dòng)駕駛車輛接受傳感器輸入,在一個(gè)循環(huán)中依次執(zhí)行感知、預(yù)測(cè)、規(guī)劃和運(yùn)動(dòng)控制,最終給駕駛系統(tǒng)提供轉(zhuǎn)向和速度信號(hào)。
[12]首先介紹了這個(gè)想法,并用卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了基于圖像的端到端驅(qū)動(dòng)系統(tǒng)。[302]提出了一種具有多模式輸入的端到端架構(gòu)。[51]和[106]提出分別通過(guò)條件模仿學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)來(lái)學(xué)習(xí)端到端自動(dòng)駕駛系統(tǒng)。具體的端到端的自動(dòng)駕駛示意如下圖所示。
圖片


3D目標(biāo)檢測(cè)仿真


3D目標(biāo)檢測(cè)模型通常需要大量數(shù)據(jù)進(jìn)行訓(xùn)練。雖然可以在現(xiàn)實(shí)世界場(chǎng)景中收集數(shù)據(jù),但現(xiàn)實(shí)世界的數(shù)據(jù)通常會(huì)受到長(zhǎng)尾分布的影響。

例如,交通事故或極端天氣的場(chǎng)景很少被采集到,但對(duì)于訓(xùn)練強(qiáng)大的3D目標(biāo)檢測(cè)器非常重要。模擬仿真是解決長(zhǎng)尾數(shù)據(jù)分布問(wèn)題的一種很有前途的方案,因?yàn)槲覀兛梢詾槟切┖币?jiàn)但關(guān)鍵的場(chǎng)景創(chuàng)建人造數(shù)據(jù)。模擬的一個(gè)公開(kāi)挑戰(zhàn)是如何創(chuàng)建更真實(shí)的人造數(shù)據(jù)。視覺(jué)模擬。很多方法在駕駛場(chǎng)景中生成逼真的合成圖像。這些方法的想法包括利用圖形引擎[1, 226]、利用紋理映射面元[320]、利用真實(shí)世界數(shù)據(jù)[47]和學(xué)習(xí)可控神經(jīng)模擬器[108]。
激光雷達(dá)模擬。除了生成合成圖像,許多方法試圖通過(guò)模擬生成LiDAR點(diǎn)云。一些方法[69, 188, 71]通過(guò)模擬現(xiàn)實(shí)世界的效果提出了新穎的點(diǎn)云渲染機(jī)制。一些方法[169]利用真實(shí)世界的實(shí)例來(lái)重建3D場(chǎng)景。其他論文側(cè)重于安全關(guān)鍵場(chǎng)景[267]或惡劣天氣條件下[89]的模擬。
駕駛模擬。許多論文試圖建立一個(gè)交互式駕駛模擬平臺(tái),虛擬車輛可以在其中感知虛擬環(huán)境并與虛擬環(huán)境交互,最終規(guī)劃車輛路徑。CARLA[61]是一個(gè)開(kāi)創(chuàng)性的自動(dòng)駕駛開(kāi)源模擬器。
其他論文利用圖形引擎[232]或開(kāi)發(fā)數(shù)據(jù)驅(qū)動(dòng)方法[4]進(jìn)行駕駛模擬。還有一些工作模擬交通流[253、252]或通過(guò)模擬測(cè)試車輛的安全性[296]。

3D目標(biāo)檢測(cè)的魯棒性


基于學(xué)習(xí)的3D的目標(biāo)檢測(cè)方法容易受到攻擊,比如給傳感器輸入中添加一些噪聲或目標(biāo),就可能造成3D目標(biāo)檢測(cè)器失效,造成漏檢,如何更好的防御攻擊是個(gè)問(wèn)題。

許多論文提出通過(guò)對(duì)抗性機(jī)器學(xué)習(xí)攻擊傳感器并欺騙目標(biāo)檢測(cè)器。這些方法針對(duì)不同的目標(biāo),例如LiDAR檢測(cè)器[18, 294, 257, 248, 366],多模態(tài)檢測(cè)器[19, 259],協(xié)作感知模型[258],車輛軌跡[130] 等。
他們提出了不同的技術(shù)來(lái)欺騙檢測(cè)器,包括在道路上添加對(duì)抗性障礙物[18]、在車輛上放置真實(shí)的樣本[294]、在對(duì)抗性位置放置任意目標(biāo)[366]、利用對(duì)抗性紋理網(wǎng)格[259]、放棄臨界值[294],和利用被遮擋的點(diǎn)云模式[248]等。


協(xié)同3D目標(biāo)檢測(cè)


現(xiàn)有的3D目標(biāo)檢測(cè)方法主要基于本車單車,但是只用單車會(huì)造成無(wú)法解決目標(biāo)遮擋和遠(yuǎn)處目標(biāo)的稀疏性問(wèn)題。于是很多研究提出,利用多車協(xié)同方案。
本車與其它車或基礎(chǔ)設(shè)施進(jìn)行通信,根據(jù)其它代理(車或基礎(chǔ)設(shè)施)反饋的信息提高感知精度。協(xié)同感知的一個(gè)挑戰(zhàn)是如何適當(dāng)?shù)仄胶饩忍岣吆屯ㄐ艓捯?。協(xié)同3D目標(biāo)檢測(cè)方法融合來(lái)自多個(gè)代理的信息以提高3D目標(biāo)檢測(cè)器的性能。
融合的信息可以是來(lái)自其他代理的原始輸入[33, 345],其通信帶寬消耗很小,并且對(duì)于檢測(cè)非常有效,也可以是壓縮的特征圖 [32, 276, 260, 129],其通信帶寬成本不可忽略,但檢測(cè)效果通常會(huì)更好。還有一些論文研究何時(shí)與其他代理通信[150]以及與哪個(gè)代理通信[151]。

10分析和展望
研究趨勢(shì)


3D目標(biāo)檢測(cè)的評(píng)價(jià)指標(biāo)從原來(lái)的2D的AP已經(jīng)逐漸變?yōu)锳P-3D和AP-BEV,更好的衡量3D檢測(cè)效果?;贚iDAR的方法在數(shù)據(jù)集的選擇上也從KITTI逐漸變?yōu)楦蠛透鄻拥膎uScenes和WaymoOpen數(shù)據(jù)集。部署依然很難,因?yàn)楹芏喾椒榱颂岣咝阅?,并沒(méi)有太在乎推理時(shí)間,造成實(shí)時(shí)性較差。
目前來(lái)看,基于LiDAR的方法中,基于體素和點(diǎn)體素的方法性能有較大提升?;谥w的方法運(yùn)行快,效率高,但性能比基于體素的差?;赗ange和BEV的方法不錯(cuò),推理時(shí)間也可以接受。基于點(diǎn)的檢測(cè)器效果好,但是推理速度受采樣和處理算子的影響較大。
基于相機(jī)的3D目標(biāo)檢測(cè)方法中,雙目比單目好,多相機(jī)的研究也是前景廣泛。多模態(tài)比單模態(tài)效果好,但引入了額外的計(jì)算開(kāi)銷,前融合方法更嚴(yán)重?,F(xiàn)在很多方法只用了前視圖和對(duì)應(yīng)點(diǎn)云進(jìn)行融合,而在nuScenes上提供了多視圖圖像、點(diǎn)云和高精地圖,模型可以得到更好的結(jié)果。
從系統(tǒng)級(jí)別來(lái)看,以速度和精度為主導(dǎo)因素,則基于LiDAR和多模態(tài)的方法是最佳解決方案;如果以成本為最重要因素,那么基于相機(jī)的方法可能是最佳選擇。


未來(lái)展望


數(shù)據(jù)集不能只用閉集,類別只有那些常見(jiàn)的目標(biāo)(機(jī)非人等),后續(xù)也應(yīng)該關(guān)注一些現(xiàn)實(shí)世界中稀有類及未標(biāo)注的類別,開(kāi)放世界目標(biāo)檢測(cè)值得關(guān)注。
3D目標(biāo)檢測(cè)的可解釋性研究。深度學(xué)習(xí)作為黑盒,可解釋性較差,但為了更加穩(wěn)健的使用3D目標(biāo)檢測(cè)器,并知道如何避免一些意外情況,需要理解和解釋現(xiàn)有3D目標(biāo)檢測(cè)器的一些行為。
硬件系統(tǒng)的優(yōu)化設(shè)計(jì)同樣重要,如何讓基于LiDAR和多模態(tài)的檢測(cè)器高效的在移動(dòng)端硬件上跑起來(lái),需要設(shè)計(jì)新的硬件架構(gòu)來(lái)方便模型部署。
端到端的3D目標(biāo)檢測(cè)算法未來(lái)是個(gè)趨勢(shì),畢竟單獨(dú)去優(yōu)化3D目標(biāo)檢測(cè)器,對(duì)下游任務(wù)(預(yù)測(cè)和規(guī)劃)不一定是最優(yōu)的。
下面的表是一個(gè)匯總。
圖片圖片圖片圖片

11總結(jié)


本文全面回顧和分析了自動(dòng)駕駛3D目標(biāo)檢測(cè)的各個(gè)方面。從3D目標(biāo)檢測(cè)的問(wèn)題定義、數(shù)據(jù)集和評(píng)估指標(biāo)開(kāi)始,然后介紹了基于各種傳感器的3D目標(biāo)檢測(cè)方法,包括基于LiDAR、基于相機(jī)和多模態(tài)3D目標(biāo)檢測(cè)方法。進(jìn)一步研究了利用時(shí)態(tài)數(shù)據(jù)的3D目標(biāo)檢測(cè),具有標(biāo)簽高效的學(xué)習(xí),以及它在自動(dòng)駕駛系統(tǒng)中的應(yīng)用。最后,總結(jié)了近年來(lái)的研究趨勢(shì),展望了未來(lái)3D目標(biāo)檢測(cè)的研究方向。

12參考文獻(xiàn)

[1] Mao, J., Shi, S., Wang, X., & Li, H. (2022). 3D Object Detection for Autonomous Driving: A Review and New Outlooks.ArXiv, abs/2206.09474.           


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉