博客專欄

EEPW首頁(yè) > 博客 > CVPR2023 | 基于多視圖投影和方向一致性的弱監(jiān)督單目3D檢測(cè)

CVPR2023 | 基于多視圖投影和方向一致性的弱監(jiān)督單目3D檢測(cè)

發(fā)布人:計(jì)算機(jī)視覺工坊 時(shí)間:2023-04-23 來源:工程師 發(fā)布文章
論文思路:

單目3D目標(biāo)檢測(cè)由于其應(yīng)用簡(jiǎn)單,已成為自動(dòng)駕駛的主流方法。一個(gè)突出的優(yōu)點(diǎn)是在推理過程中不需要LiDAR點(diǎn)云。然而,目前的大多數(shù)方法仍然依賴于3D點(diǎn)云數(shù)據(jù)來標(biāo)記訓(xùn)練階段使用的ground truths。這種訓(xùn)練與推理的不一致使得大規(guī)模的反饋數(shù)據(jù)(large-scale feedback data)難以利用,增加了數(shù)據(jù)收集的費(fèi)用。為了彌補(bǔ)這一缺陷,本文提出了一種新的弱監(jiān)督單目三維目標(biāo)檢測(cè)方法,該方法僅用在圖像上標(biāo)注的二維標(biāo)簽來訓(xùn)練模型。具體來說,本文在這個(gè)任務(wù)中探索了三種類型的一致性,即投影一致性、多視圖一致性和方向一致性,并基于這些一致性設(shè)計(jì)了一個(gè)弱監(jiān)督架構(gòu)。此外,本文提出了一種新的二維方向標(biāo)注方法(2D direction labeling method)來指導(dǎo)模型進(jìn)行準(zhǔn)確的旋轉(zhuǎn)方向預(yù)測(cè)。實(shí)驗(yàn)表明,本文的弱監(jiān)督方法與一些完全監(jiān)督方法具有相當(dāng)?shù)男阅?。?dāng)被用作預(yù)訓(xùn)練方法時(shí)(When used as a pre-training method),本文的模型僅使用1/3的3D標(biāo)簽就能顯著優(yōu)于相應(yīng)的全監(jiān)督基線。

主要貢獻(xiàn):

本文提出了一種新的單目3D目標(biāo)檢測(cè)的弱監(jiān)督方法,該方法只將二維標(biāo)簽作為ground truth,而不需要任何三維點(diǎn)云進(jìn)行標(biāo)記。據(jù)本文所知,本文是第一個(gè)在這個(gè)任務(wù)中完全避免3D點(diǎn)云依賴的工作。本文將投影一致性和多視圖一致性引入到該任務(wù)中,并設(shè)計(jì)了兩個(gè)一致性損失來指導(dǎo)基于它們的精確3D bounding boxes的預(yù)測(cè)。本文提出了一種新的標(biāo)注方法叫2D direction label,來代替點(diǎn)云數(shù)據(jù)上標(biāo)注的3D rotation label以及基于新標(biāo)簽的方向一致性損失。在本文的實(shí)驗(yàn)中,提出的弱監(jiān)督方法取得了與一些全監(jiān)督方法相當(dāng)?shù)男阅?。本文還微調(diào)本文的模型與小比例的3D ground truth。結(jié)果表明,即使只有1/3的ground truth標(biāo)簽,本文的方法也可以比相應(yīng)的全監(jiān)督基線獲得更好的性能,展示了基于反饋生產(chǎn)數(shù)據(jù)改進(jìn)模型的潛力。

網(wǎng)絡(luò)設(shè)計(jì):

圖片圖2。提出的方法的體系結(jié)構(gòu)。左欄顯示,在訓(xùn)練階段,將來自不同視點(diǎn)的圖像對(duì)送入檢測(cè)模型,在預(yù)測(cè)和2Dground truth之間計(jì)算4個(gè)損失。右列顯示投影一致性和多視圖一致性的詳細(xì)信息。為了計(jì)算投影一致性損失,本文將預(yù)測(cè)的box投影到二維圖像中,并將其轉(zhuǎn)換為二維box,最后計(jì)算二維box與二維box標(biāo)簽的差值。為了計(jì)算一致性損失,本文首先將從視點(diǎn)1預(yù)測(cè)的3Dbox轉(zhuǎn)換為視點(diǎn)2的坐標(biāo)系,然后計(jì)算轉(zhuǎn)換后的box與視點(diǎn)2預(yù)測(cè)的box的差值。圖片圖1。投影和多視圖的一致性的可視化。(a)由于投影損失在三維空間中有多個(gè)最優(yōu)解,僅靠投影一致性無法確定目標(biāo)的準(zhǔn)確位置。例如,3D空間中的兩個(gè)虛線框產(chǎn)生相同的投影損失,因?yàn)樗鼈冊(cè)?D空間中有相同的投影。(b)在多視圖一致性的約束下,最優(yōu)解必須是兩個(gè)視點(diǎn)的共同解,即目標(biāo)位置。

實(shí)驗(yàn)結(jié)果:

圖片圖片圖片圖片圖片圖片對(duì)此,你怎么看?歡迎轉(zhuǎn)發(fā)朋友圈,發(fā)表你的觀點(diǎn)。或者加入自動(dòng)駕駛技術(shù)交流群,和眾多同行朋友一起交流討論。


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉