3D目標(biāo)檢測(cè)中點(diǎn)云的稀疏性問(wèn)題及解決方案
來(lái)源|自動(dòng)駕駛之心
編輯|深藍(lán)學(xué)院
1. 點(diǎn)云稀疏性的定義
點(diǎn)云的稀疏性指激光雷達(dá)的采樣點(diǎn)覆蓋相對(duì)于場(chǎng)景的尺度來(lái)講,具有很強(qiáng)的稀疏性。例如,將目前主流的戶外3D目標(biāo)檢測(cè)數(shù)據(jù)集KITTI[1]的點(diǎn)云投影到對(duì)應(yīng)的RGB圖像上,大約只有3%的像素才有對(duì)應(yīng)的點(diǎn)云;VoxelNet[2]將獲取的點(diǎn)云等間距的劃分到體素空間,超過(guò)90%的體素是空的。稀疏性產(chǎn)生的原因包括遠(yuǎn)距離、遮擋和反光等。
仍然以KITTI數(shù)據(jù)集為例,KITTI數(shù)據(jù)集將不同目標(biāo)的檢測(cè)難度劃分為"Easy"、"Moderate"和"Hard"三類,我們統(tǒng)計(jì)了KITTI數(shù)據(jù)集中不同難度GT框內(nèi)的點(diǎn)云數(shù)目分布情況,如下圖所示,可以看出,"Moderate"和"Hard"目標(biāo)中分別有超過(guò)47%和54%的點(diǎn)云數(shù)少于60個(gè)points,其對(duì)應(yīng)的形狀和結(jié)構(gòu)是極其不完整的,進(jìn)而給3D目標(biāo)檢測(cè)帶來(lái)困難。
對(duì)于遠(yuǎn)距離或者遮擋的目標(biāo),點(diǎn)云密度隨著距離增大而減小,當(dāng)距離增大或者發(fā)生遮擋時(shí),獲取的目標(biāo)點(diǎn)云很少,導(dǎo)致目標(biāo)的結(jié)構(gòu)信息和語(yǔ)義信息不完整。如下圖所示,我們可視化了KITTI數(shù)據(jù)集中的”Car“目標(biāo)在真實(shí)場(chǎng)景中的點(diǎn)云情況,可以看出:Easy難度目標(biāo)的可視化形狀是比較完整的,這類目標(biāo)便于網(wǎng)絡(luò)檢出,SOTA方法的檢測(cè)精度可以達(dá)到90%左右;而Moderate和Hard難度目標(biāo)的可視化形狀缺失比較嚴(yán)重,目標(biāo)的結(jié)構(gòu)信息和語(yǔ)義信息不完整,這類目標(biāo)的檢測(cè)精度較低。
對(duì)于遠(yuǎn)距離目標(biāo),傳感器獲取的目標(biāo)點(diǎn)云較少,在這種情況下,待檢測(cè)目標(biāo)可能與場(chǎng)景中的背景混淆,造成誤檢。
如下圖所示,待檢測(cè)目標(biāo)"Pedestrian"和直桿(背景)距離傳感器25米,獲取的點(diǎn)云稀疏,幾乎呈現(xiàn)相同的幾何形狀。這種相似的幾何表示給檢測(cè)帶來(lái)困難。
相較于整個(gè)場(chǎng)景點(diǎn)云,待檢測(cè)目標(biāo)的點(diǎn)云的占比較少。PV-RCNN[3]指出在KITTI數(shù)據(jù)集中,待檢測(cè)目標(biāo)的點(diǎn)云(point of interest)的個(gè)數(shù)大約為2K,而整體場(chǎng)景的點(diǎn)云個(gè)數(shù)大約為15K;這種差距在后續(xù)的點(diǎn)云下采樣過(guò)程可能會(huì)進(jìn)一步擴(kuò)大,進(jìn)而導(dǎo)致可用的前景點(diǎn)特征少,導(dǎo)致檢測(cè)精度降低。
3. 點(diǎn)云稀疏性的解決方案針對(duì)點(diǎn)云稀疏性帶來(lái)3D目標(biāo)檢測(cè)上的困難,涌現(xiàn)了一系列方法來(lái)緩解該問(wèn)題,包括多模態(tài)數(shù)據(jù)融合、點(diǎn)云下采樣方法的改進(jìn)、基于知識(shí)蒸餾的特征學(xué)習(xí)和點(diǎn)云補(bǔ)全等。下面,本文將對(duì)當(dāng)前研究較多的解決點(diǎn)云稀疏性的方法進(jìn)行匯總和總結(jié),希望可以給大家?guī)?lái)一些啟發(fā)。
3.1 改進(jìn)點(diǎn)云下采樣方法整個(gè)場(chǎng)景的點(diǎn)云數(shù)很多,且背景點(diǎn)占比較大,將整個(gè)場(chǎng)景的點(diǎn)云全部送入網(wǎng)絡(luò)提取特征會(huì)極大的增大計(jì)算量,不能保證實(shí)時(shí)性。因此,現(xiàn)有的基于點(diǎn)云的3D目標(biāo)檢測(cè)方法會(huì)先對(duì)場(chǎng)景點(diǎn)云進(jìn)行下采樣,再將下采樣后的點(diǎn)云送入網(wǎng)絡(luò)提取特征和檢測(cè)。例如PointRCNN[4]在處理KITTI數(shù)據(jù)時(shí),會(huì)先將場(chǎng)景點(diǎn)云隨機(jī)下采樣到16384個(gè),再處理這16384個(gè)點(diǎn)云,用于特征提取和檢測(cè)。
但是,由于前景點(diǎn)在整個(gè)場(chǎng)景中占比較少,隨機(jī)下采樣點(diǎn)云可能會(huì)導(dǎo)致前景點(diǎn)的占比進(jìn)一步較少,加劇前景點(diǎn)的稀疏性問(wèn)題,降低檢測(cè)精度。因此,一些工作提出基于特征或基于語(yǔ)義感知的下采樣等方法來(lái)緩解該問(wèn)題。
論文標(biāo)題:3DSSD: Point-based 3D Single Stage Object Detector (2020CVPR oral)
論文地址:https://arxiv.org/pdf/2002.10187.pdf
作者單位:Zetong Yang等,港中文和港科技
核心思想:作者首先分析了基于點(diǎn)云的二階段3D檢測(cè)網(wǎng)絡(luò),第一部分利用SA層下采樣和提取點(diǎn)云的語(yǔ)義特征,F(xiàn)P層用于上采樣,并將特征廣播到下采樣期間所丟棄的點(diǎn),再利用3D RPN生成proposals;第二部分利用refinement模塊進(jìn)一步提高初始proposals的精度;而作者認(rèn)為FP層和refinement模塊耗時(shí)較多,可以移除;基于此,作者結(jié)合距離下采樣和特征下采樣,提出了一種融合的下采樣策略,從而平衡前背景點(diǎn)數(shù)量,保證足夠的前景點(diǎn)。
方法簡(jiǎn)述:
- 為了盡可能保留前景點(diǎn),刪除背景點(diǎn),必須同時(shí)考慮距離信息和語(yǔ)義信息。而在深度學(xué)習(xí)框架中,很容易得到點(diǎn)云的語(yǔ)義信息,因此作者首先提出Feature-FPS(F-FPS),充分利用點(diǎn)云的特征信息進(jìn)行下采樣,以保留目標(biāo)的前景點(diǎn);同時(shí),考慮到背景點(diǎn)囊括了周圍的語(yǔ)義信息,有助于提升分類精度,因此進(jìn)一步結(jié)合Distance-FPS(D-FPS),將距離信息考慮在內(nèi),提出了Fusion-FPS,進(jìn)行場(chǎng)景點(diǎn)云下采樣。分別采樣N/2個(gè)點(diǎn);
- 進(jìn)一步提取采樣點(diǎn)特征,送入CG層,對(duì)于邊界框回歸任務(wù)而言,背景點(diǎn)是無(wú)用的,因此僅使用F-FPS的點(diǎn)作為初始中心點(diǎn),這些初始中心點(diǎn)在其相對(duì)位置的監(jiān)督下移動(dòng)到其相應(yīng)的實(shí)例中,得到候選點(diǎn)。然后,將候選點(diǎn)當(dāng)做CG層的中心點(diǎn),再通過(guò)預(yù)先設(shè)置的閾值從F-FPS和D-FPS的集合點(diǎn)中找到他們的周圍點(diǎn),最后采用MLP提取它們的特征,這些特征用來(lái)預(yù)測(cè)最后的3D邊界框。
- 該方法在保證實(shí)時(shí)性(25FPS)的同時(shí),在KITTI數(shù)據(jù)集和nuscene數(shù)據(jù)集上取得了不錯(cuò)的精度。
論文標(biāo)題:SASA: Semantics-Augmented Set Abstraction for Point-based 3D Object Detection (2022 AAAI)
論文地址:https://arxiv.org/pdf/2201.01976.pdf
作者單位:Chen Chen等,悉尼大學(xué)等
核心思想:現(xiàn)有的Set Abstraction通常以距離作為標(biāo)準(zhǔn)(如FPS),來(lái)選擇較遠(yuǎn)的點(diǎn)來(lái)盡可能覆蓋整個(gè)場(chǎng)景,但是這樣會(huì)導(dǎo)致keypoints包含過(guò)多的背景點(diǎn),從而導(dǎo)致pedestrian等點(diǎn)云數(shù)較少的object漏檢。針對(duì)該問(wèn)題,作者對(duì)PointNet++做了兩處改進(jìn):增加一個(gè)前景背景點(diǎn)分割模塊來(lái)識(shí)別前景點(diǎn)作為輸入;提出S-FPS采樣策略來(lái)選擇關(guān)鍵點(diǎn)。
方法簡(jiǎn)述:
- 給定輸入點(diǎn)云,先提取場(chǎng)景點(diǎn)云特征,再將其送入點(diǎn)云分割模塊,進(jìn)行前背景點(diǎn)分割(二分類網(wǎng)絡(luò),通過(guò)2層MLP實(shí)現(xiàn)),得到前景點(diǎn)分割得分;前背景點(diǎn)的標(biāo)注信息通過(guò)3D標(biāo)注的檢測(cè)框可以直接得到,即檢測(cè)框內(nèi)的點(diǎn)為前景點(diǎn),檢測(cè)外的點(diǎn)為背景點(diǎn);
- 利用S-FPS(Semantics-guided Farthest Point Sampling),綜合考慮目標(biāo)點(diǎn)的語(yǔ)義特征(分割得分)和距離信息,使得下采樣過(guò)程中前景點(diǎn)的權(quán)重比背景點(diǎn)更大,更容易采樣到前景點(diǎn),將這部分前景點(diǎn)作為新的關(guān)鍵點(diǎn),送入pointnet++提取更高維的特征,再送入已有的3D檢測(cè)框架完成檢測(cè)任務(wù);
- S-FPS潛在劃分前景目標(biāo)出現(xiàn)的區(qū)域,有助于后續(xù)網(wǎng)絡(luò)檢出目標(biāo);此外,由于S-FPS是從分割得分最高的點(diǎn)開始下采樣,對(duì)于點(diǎn)云的排列順序不敏感;該方法在KITTI和nuscene數(shù)據(jù)集上取得了不錯(cuò)的精度。
3.2 基于知識(shí)蒸餾的特征遷移
對(duì)于現(xiàn)實(shí)場(chǎng)景中的點(diǎn)云,由于遮擋、遠(yuǎn)距離等原因,采集的點(diǎn)云是稀疏的,導(dǎo)致模型提取的特征不完整,不利于3D檢測(cè);但是,現(xiàn)實(shí)場(chǎng)目標(biāo)存在某些共性特征,例如:車是對(duì)稱物體,車都有四個(gè)輪子等,對(duì)于人類而言,我們只要看到目標(biāo)的某個(gè)部分,我們就可以知道該目標(biāo)的類別和大概的位置。因此,一些工作考慮通過(guò)知識(shí)蒸餾、遷移學(xué)習(xí)等方法,利用完整目標(biāo)的完整特征指導(dǎo)真實(shí)場(chǎng)景中殘缺目標(biāo)的進(jìn)行特征學(xué)習(xí),或者將點(diǎn)云的深度信息引入到基于RGB圖像的3D目標(biāo)檢測(cè)中。
論文標(biāo)題:AGO-Net: Association-Guided 3D Point Cloud Object Detection Network (2022TPAMI)
論文地址:https://arxiv.org/pdf/2208.11658.pdf
作者單位:Liang Du等,復(fù)旦大學(xué)等
核心思想:作者將現(xiàn)實(shí)場(chǎng)景的不完整的稀疏點(diǎn)云定義為感知域,將對(duì)應(yīng)場(chǎng)景補(bǔ)全的完整點(diǎn)云定義為概念域,通過(guò)孿生網(wǎng)絡(luò)輔助稀疏點(diǎn)云從完整點(diǎn)云學(xué)習(xí)特征,從而生成更完整的特征,進(jìn)行目標(biāo)檢測(cè)任務(wù),且在測(cè)試階段不會(huì)引入額外的計(jì)算。
方法簡(jiǎn)述:
- AGO網(wǎng)絡(luò)由一對(duì)孿生網(wǎng)絡(luò)組成,包括PFE(perceptual feature encoder)和CFG(conceptual feature generator),可以采用已有的3D檢測(cè)框架替換;以及SC-weight模塊,輔助網(wǎng)絡(luò)對(duì)加強(qiáng)場(chǎng)景的前景特征的學(xué)習(xí);
- 首先,單獨(dú)訓(xùn)練感知域的網(wǎng)絡(luò)(CFG)。該網(wǎng)絡(luò)的輸入數(shù)據(jù)是真實(shí)場(chǎng)景的稀疏點(diǎn)云(上圖中的Perceptual)補(bǔ)全后的完整點(diǎn)云(上圖中的Conceptual),經(jīng)過(guò)3D BEV encoder后得到的是完整的目標(biāo)特征,該特征送入檢測(cè)頭可以得到接近100%的檢測(cè)精度,當(dāng)CFG訓(xùn)練完成后,凍結(jié)該網(wǎng)絡(luò),用于給后續(xù)PFE的訓(xùn)練提供完整且穩(wěn)定的特征;
- 再訓(xùn)練整個(gè)AGO網(wǎng)絡(luò)。具體而言,將真實(shí)場(chǎng)景的稀疏點(diǎn)云輸入PFE,經(jīng)過(guò)與CFG相同結(jié)構(gòu)的3D BEV encoder,抽取特征;同時(shí),補(bǔ)全后的點(diǎn)云輸入已經(jīng)訓(xùn)練過(guò)且凍結(jié)參數(shù)的CFG,用于產(chǎn)生完整的特征;再利用CFG產(chǎn)生的完整特征指導(dǎo)PFE進(jìn)行特征學(xué)習(xí),MSE損失函數(shù)作為約束函數(shù),促使PEF產(chǎn)生完整的目標(biāo)特征;此外,作者還引入SC-weight模塊輔助PFE 更好的學(xué)習(xí)完整特征,該模塊通過(guò)前景mask將前景特征摳出來(lái),使得網(wǎng)絡(luò)聚焦于前景特征的學(xué)習(xí);
- 測(cè)試階段,去除CFG模塊,只留下PFE模塊,在測(cè)試階段不會(huì)增加額外的計(jì)算;而且,由于PFE模塊在訓(xùn)練階段有了CFG模塊的指導(dǎo),可以生成更完整的特征,因而可以取得不錯(cuò)的檢測(cè)結(jié)果。
論文標(biāo)題:MONODISTILL: LEARNING SPATIAL FEATURES FOR MONOCULAR 3D OBJECT DETECTION (2022 ICLR)
論文地址:https://arxiv.org/pdf/2201.10830.pdf
作者單位:Zhiyu Chong等,大連理工大學(xué)等
核心思想:基于單目圖像的3D目標(biāo)檢測(cè)由于缺乏深度信息,其3D檢測(cè)的性能一直差強(qiáng)人意;因此,作者考慮通過(guò)teacher-student框架,將點(diǎn)云的深度信息(spatial cues)引入到單目圖像的3D目標(biāo)檢測(cè)網(wǎng)絡(luò),提升檢測(cè)精度;對(duì)于點(diǎn)云和RGB圖像不同的特征表示,作者將點(diǎn)云投影到圖像平面,進(jìn)行特征對(duì)齊。
方法簡(jiǎn)述:
- 基于單目圖像的3D檢測(cè)模塊(即student網(wǎng)絡(luò)):首先,將單目圖像輸入到已有的3D目標(biāo)檢測(cè)框架,提取RGB圖像特征,具體而言,采用DLA-34 作為 backbone,一些并行的 heads 用于預(yù)3d 目標(biāo)檢測(cè),
- 基于點(diǎn)云的3D檢測(cè)模塊(即teacher網(wǎng)絡(luò)):為了保證點(diǎn)云和RGB圖像的特征的一致性,使用和student一樣的模型結(jié)構(gòu),只是將輸入換成深度補(bǔ)全后的點(diǎn)云深度圖,即先將點(diǎn)云輸入投影到RGB圖像平面,得到sparse深度圖,再利用插值算法得到dense深度圖,將其輸入到與student相同的3D目標(biāo)檢測(cè)網(wǎng)絡(luò),提取“點(diǎn)云”特征,該網(wǎng)絡(luò)作為teacher網(wǎng)絡(luò);
- 作者進(jìn)一步在特征層面和結(jié)果層面提出scene-level、object-level知識(shí)蒸餾,以幫助student網(wǎng)絡(luò)更好的從teacher學(xué)習(xí)到點(diǎn)云的深度信息;
- 同樣,在測(cè)試階段,去除teacher網(wǎng)絡(luò),只保留student網(wǎng)絡(luò),沒有引入額外的計(jì)算量;且沒有改變?cè)嫉膯文繄D像的3D檢測(cè)框架。
3.3 多模態(tài)數(shù)據(jù)融合
基于多模態(tài)數(shù)據(jù)融合的3D目標(biāo)檢測(cè)主要指利用跨模態(tài)數(shù)據(jù)提升模型的檢測(cè)精度。一般而言,多模態(tài)數(shù)據(jù)包含:圖像數(shù)據(jù)、激光雷達(dá)數(shù)據(jù)、毫米波雷達(dá)數(shù)據(jù)、雙目深度數(shù)據(jù)等,本文主要關(guān)注當(dāng)前研究較多的圖像+點(diǎn)云融合的3D目標(biāo)檢測(cè)模型。點(diǎn)云數(shù)據(jù)具備目標(biāo)的幾何信息和深度信息,但缺乏目標(biāo)的顏色和紋理信息,而這些信息對(duì)于目標(biāo)的識(shí)別分類十分重要;圖像數(shù)據(jù)顏色和紋理信息豐富,但缺乏深度信息,不能很好的定位目標(biāo)。因此,一些工作考慮結(jié)合二者數(shù)據(jù)的優(yōu)點(diǎn),進(jìn)行3D目標(biāo)檢測(cè)任務(wù)。
論文標(biāo)題:CLOCs: Camera-LiDAR Object Candidates Fusion for 3D Object Detection (2020 IROS)
論文地址:https://arxiv.org/pdf/2009.00784.pdf
作者單位:Su Pang等,Michigan State University
核心思想:作者認(rèn)為,對(duì)于決策級(jí)的融合而言,多模態(tài)數(shù)據(jù)不需要與其他模態(tài)進(jìn)行同步或?qū)R,且利用二者的檢測(cè)結(jié)果排除了大部分冗余背景區(qū)域,因此更有助于網(wǎng)絡(luò)學(xué)習(xí);方法相對(duì)而言比較簡(jiǎn)單,CLOCs是利用檢測(cè)結(jié)果進(jìn)行的跨模態(tài)融合,屬于決策級(jí)融合的范疇。
方法簡(jiǎn)述:
- 將RGB圖像輸入到已有的2D目標(biāo)檢測(cè)模型中,得到k個(gè)2D檢測(cè)框,表示2D圖像中潛在含有目標(biāo)的區(qū)域;
- 同時(shí)將點(diǎn)云輸入到已有的3D目標(biāo)檢測(cè)模型中,得到n個(gè)3D檢測(cè)框,表示3D場(chǎng)景中潛在含有目標(biāo)的區(qū)域;
- 對(duì)于2D和3D檢測(cè)結(jié)果k和n,構(gòu)建新的矩陣T,包括描述二者幾何一致性的IoU(IoU=0的檢測(cè)框直接去除)、2D檢測(cè)框的置信度得分、3D檢測(cè)框的置信度得分和3D檢測(cè)框到地面的歸一化距離d;
- 進(jìn)一步對(duì)保留的候選框進(jìn)行特征提取,得到最終的檢測(cè)結(jié)果。
論文標(biāo)題:Sparse Fuse Dense: Towards High Quality 3D Detection with Depth Completion (2022CVPR)
論文地址:https://arxiv.org/pdf/2203.09780.pdf
作者單位:Xiaopei Wu等,Zhejiang University
核心思想:作者認(rèn)為目前戶外點(diǎn)云+圖像的方法沒有純點(diǎn)云的方法效果好的原因包括2個(gè),(1)多模態(tài)的數(shù)據(jù)增廣困難以及(2)現(xiàn)在方法大多是從點(diǎn)云找對(duì)應(yīng)的圖像融合特征,但是點(diǎn)云能對(duì)應(yīng)上的像素點(diǎn)比較少,沒有完全利用好圖像的特征。因此,作者考慮多模態(tài)特征加權(quán)融合,以及跨模態(tài)對(duì)齊問(wèn)題;SFD利用的是3D場(chǎng)景預(yù)測(cè)出的候選框,并在不同模態(tài)數(shù)據(jù)上進(jìn)行特征提取,因此屬于RoI-level的融合范疇
方法簡(jiǎn)述:
- 先利用深度補(bǔ)全網(wǎng)絡(luò),將原始RGB圖像映射到3D場(chǎng)景中,對(duì)圖像上的像素點(diǎn)進(jìn)行深度補(bǔ)全,在KITTI數(shù)據(jù)集上預(yù)訓(xùn)練后再訓(xùn)練目標(biāo)檢測(cè)網(wǎng)絡(luò)時(shí)不再改變參數(shù),進(jìn)一步生成偽點(diǎn)云;補(bǔ)全后的點(diǎn)云就由sparse變?yōu)閐ense了,且每個(gè)像素都有了對(duì)應(yīng)的點(diǎn)云;
- 再利用dense且包含顏色信息的偽點(diǎn)云進(jìn)行特征提取,再和原始點(diǎn)云特征融合,進(jìn)一步生成候選框;
- 在fusion模塊,對(duì)每一個(gè)候選框,分別提取點(diǎn)云特征和偽點(diǎn)云特征;對(duì)點(diǎn)云特征和偽點(diǎn)云特征,利用attention進(jìn)行重新加權(quán),并輸出最后的檢測(cè)結(jié)果;
- 此外,作者還提出了一種適用于多模態(tài)的數(shù)據(jù)增強(qiáng)方法SynAugment,包括Manipulate Images like Point Clouds(多模態(tài)數(shù)據(jù)增強(qiáng)的最大挑戰(zhàn)是如何處理像點(diǎn)云這樣的圖像。作者通過(guò)深度補(bǔ)全的方法,將2D圖像轉(zhuǎn)換為偽點(diǎn)云,此時(shí)偽點(diǎn)云承載了圖像的所有信息,然后像處理原始點(diǎn)云一樣處理偽點(diǎn)云),和Extract Image Features in 3D Space(即將2D圖像轉(zhuǎn)化為偽點(diǎn)云,然后在3D空間中提取偽點(diǎn)云特征)
論文標(biāo)題:Pointpainting: Sequential Fusion for 3D Object Detection (2020CVPR)
論文地址:https://arxiv.org/pdf/1911.10150.pdf
作者單位:Sourabh Vora等,nuTonomy
核心思想:利用細(xì)粒度圖像分割信息對(duì)3D點(diǎn)云進(jìn)行補(bǔ)全,即將點(diǎn)云投影到圖像語(yǔ)義分割網(wǎng)絡(luò)的輸出中,并將分類分?jǐn)?shù)附加到每個(gè)點(diǎn)云上,從而增加點(diǎn)云的語(yǔ)義信息;
方法簡(jiǎn)述:
- 2D語(yǔ)義分割網(wǎng)絡(luò):使用一個(gè)基于圖像的分割網(wǎng)絡(luò)來(lái)計(jì)算pixel-wise分割分?jǐn)?shù);
- Painting/Fusion:將2D中預(yù)測(cè)出的分割結(jié)果投影到對(duì)應(yīng)的3D point中,對(duì)原始3D信息進(jìn)行補(bǔ)全;
- 3D目標(biāo)檢測(cè):利用補(bǔ)全后的3D點(diǎn)云進(jìn)行預(yù)測(cè),不需要改變?cè)?D目標(biāo)檢測(cè)框架,只需要改變輸入的維度即可,由N變?yōu)镹+1;
3.4 點(diǎn)云補(bǔ)全
針對(duì)稀疏點(diǎn)云的目標(biāo),一些方法直接采用點(diǎn)云補(bǔ)全的方式,先將目標(biāo)補(bǔ)充為較為完整的目標(biāo),再進(jìn)行3D目標(biāo)檢測(cè)。
論文標(biāo)題:Spatial information enhancement network for 3D object detection from point cloud (2022 PR)
論文地址:https://arxiv.org/pdf/2012.12397.pdf
作者單位:Ziyu Li等,東南大學(xué)等
核心思想:作者考慮到距離傳感器遠(yuǎn)近目標(biāo)中點(diǎn)云數(shù)量的不平衡的問(wèn)題,即距離LiDAR較遠(yuǎn)的目標(biāo)收集到的點(diǎn)數(shù)相對(duì)較少,作者認(rèn)為網(wǎng)絡(luò)是難以處理這種不平衡性;進(jìn)而提出一種空間信息增強(qiáng)的模塊,從稀疏的、不完整點(diǎn)云預(yù)測(cè)密集的、完整的空間表示,來(lái)緩解這種不平衡性。
方法簡(jiǎn)述:
- RPN模塊:首先,對(duì)輸入點(diǎn)云體素化,使用SPConv卷積學(xué)習(xí)體素特征,然后Keypoint分支使用注意力機(jī)制動(dòng)態(tài)編碼體素特征,作者還提出一個(gè)輔助模塊(將坐標(biāo)轉(zhuǎn)換為真實(shí)場(chǎng)景坐標(biāo),再使用PointNet++特征傳播層進(jìn)行插值,將每一塊得到的特征進(jìn)行結(jié)合用以學(xué)習(xí)結(jié)構(gòu)信息)用于學(xué)習(xí)結(jié)構(gòu)信息;
- Spatial information enhancement(SIE)模塊:來(lái)預(yù)測(cè)完整的空間表示。首先,對(duì)于proposal中不完整的點(diǎn)云,將其輸入到一個(gè)成熟的3D補(bǔ)全框架(如PCN[5]),來(lái)生成完整的目標(biāo)形狀;然后,對(duì)于預(yù)測(cè)的點(diǎn)云,使用FPS采用m個(gè)點(diǎn)云,利用pointnet++提出多尺度特征,再利用全連接層將其轉(zhuǎn)化為全局特征;
- 特征融合和3D檢測(cè)模塊:將生成的全局特征與原始點(diǎn)云pooling后的特征進(jìn)行加權(quán)融合,得到enhanced feature,進(jìn)行檢測(cè)任務(wù),并在KITTI數(shù)據(jù)集上取得了目前最好的精度;
論文標(biāo)題: Multimodal Virtual Point 3D Detection(2021 NeurIPS)
論文地址:https://arxiv.org/pdf/2111.06881.pdf
作者單位:Tianwei Yin等,UT Austin等
核心思想:作者結(jié)合實(shí)例分割網(wǎng)絡(luò),先對(duì)2D圖像進(jìn)行分割,利用分割結(jié)果生成虛擬點(diǎn)云,對(duì)原始場(chǎng)景補(bǔ)全,得到完整的目標(biāo)進(jìn)行3D檢測(cè)。
方法簡(jiǎn)述:
- 首先對(duì)2D圖像進(jìn)行實(shí)例分割,得到分割結(jié)果,本文采用的是CenterNet2作為實(shí)例分割網(wǎng)絡(luò);
- 再將點(diǎn)云投影到2D圖像上,每個(gè)實(shí)例上都會(huì)有一些投影的點(diǎn)云,如(b)所示,mask內(nèi)的點(diǎn)云為黑色,其余的點(diǎn)云為灰色;
- 根據(jù)前景區(qū)域內(nèi)點(diǎn)云的深度信息生成虛擬點(diǎn)云,生成虛擬點(diǎn)的方法是在2D實(shí)例分割區(qū)域中進(jìn)行隨機(jī)采樣K個(gè)點(diǎn),根據(jù)周圍點(diǎn)云的深度插值得到這K個(gè)點(diǎn)的深度值;
- 最后再將這K個(gè)點(diǎn)投影到點(diǎn)云坐標(biāo)系,得到虛擬點(diǎn)云,達(dá)到了對(duì)原始場(chǎng)景補(bǔ)全的目的,再進(jìn)行3D檢測(cè)。
4. 參考文獻(xiàn)
A. Geiger, P. Lenz, and R. Urtasun, “Are we ready for autonomous driving? the KITTI vision benchmark suite,” in Proc. IEEE Conf. Comput. Vis. Pattern Recog., 2012, pp. 3354–3361.
Zhou Y, Tuzel O. Voxelnet: End-to-end learning for point cloud based 3d object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 4490-4499.
Shi S, Guo C, Jiang L, et al. Pv-rcnn: Point-voxel feature set abstraction for 3d object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 10529-10538.
S. Shi, X. Wang, and H. Li, “PointRCNN: 3D object proposal generation and detection from point cloud,” in Proc. IEEE Conf. Comput. Vis. Pattern Recog., 2019, pp. 770–779.
W. Yuan, T. Khot, D. Held, C. Mertz, M. Hebert, PCN: point completion network, in: 3DV, 2018, pp. 728–737.
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。