ICLR2023 | 阿卜杜拉國王科技大學最新發(fā)布,3D表示新網(wǎng)絡:多視圖+點云!(1)
簡介多視圖投影方法在 3D 分類和分割等 3D 理解任務上表現(xiàn)出了良好的性能。然而,目前尚不清楚如何將這種多視圖方法與廣泛使用的 3D 點云相結合。
人類視覺系統(tǒng)更接近于使用多個視角的間接方法來理解3D物體,而不是直接處理3D數(shù)據(jù)。相比之下,間接方法通常通過渲染對象或場景的多個2D視圖,并使用基于2D圖像的傳統(tǒng)架構來處理每個圖像。人類視覺系統(tǒng)更接近于這種多視圖間接方法,因為它接收到的是渲染圖像流,而不是顯式的3D數(shù)據(jù)。
引入了Voint cloud這個新的3D數(shù)據(jù)表示形式,并設計了VointNet 模型來學習和處理這種表示。Voint cloud將每個3D點表示為從多個視角提取的特征集合,以融合點云表示的緊湊性和多視圖表示的自然感知能力。
作者通過定義在Voint級別的池化和卷積操作,構建了Voint neural network (VointNet ),并利用該網(wǎng)絡在Voint空間學習3D表示。
多視圖投影方法在 3D 分類和分割等 3D 理解任務上表現(xiàn)出了良好的性能。然而,目前尚不清楚如何將這種多視圖方法與廣泛使用的 3D 點云相結合。以前的方法使用未學習的啟發(fā)式方法在點級別組合特征。
為此,本文引入了多視點云(Voint cloud)的概念,將每個 3D 點表示為從多個視點提取的一組特征。這種新穎的 3D Voint 云表示結合了 3D 點云表示的緊湊性和多視圖表示的自然視圖感知。自然地,可以為這個新的表示配備卷積和池化操作。
通過部署一個 Voint 神經(jīng)網(wǎng)絡 (VointNet ) 來學習Voint 空間中的表征。學習的新穎表示在標準基準(ScanObjectNN、ShapeNet Core55 和 ShapeNetParts)的 3D 分類、形狀檢索和穩(wěn)健的 3D 部件分割方面均實現(xiàn)了最先進的性能。
筆者個人體會圖1: 3D Voint clouds。本文提出了多視圖點云(Voint cloud),這是一種新穎的3D表示,它緊湊且自然地描述了3D點云的視圖投影。
- 3D云中的每個點都被標記為一個點,它會累積該點的視圖特征。
- 注意,并非所有的3D點在所有視圖中都可見。Voint 的集合構成了一個Voint cloud。
作者的動機是解決在3D視覺任務中如何表示3D數(shù)據(jù)的問題。
作者觀察到在2D計算機視覺中,直接采用圖像作為輸入的方法取得了巨大的成功,而在3D視覺中,如何表示和處理3D數(shù)據(jù)仍然是一個挑戰(zhàn)。
盡管深度學習在2D計算機視覺中取得了巨大成功,但在3D視覺中,如何表示和處理3D數(shù)據(jù)仍然是一個挑戰(zhàn)。
3D計算機視覺和計算機圖形學的一個基本問題是如何表示3D數(shù)據(jù)。深度學習在2D計算機視覺領域的成功,它在3D視覺和圖形領域的廣泛應用變得尤為重要。深度網(wǎng)絡已經(jīng)在多個3D任務上取得了成功,包括3D分類、3D分割、3D檢測、3D重建和新穎視圖合成。這些方法可以依賴于直接的3D表示、圖像上的間接2D投影,或者兩者的混合。直接方法操作通常以點云、網(wǎng)格或體素的形式表示的3D數(shù)據(jù)。
作者認為間接的多視圖方法更符合人類視覺系統(tǒng)的工作方式,因為人類接收到的是一系列渲染圖像,而不是顯式的3D數(shù)據(jù)。
人類視覺系統(tǒng)更接近于使用多個視角的間接方法來理解3D物體,而不是直接處理3D數(shù)據(jù)。
相比之下,間接方法通常通過渲染對象或場景的多個2D視圖,并使用基于2D圖像的傳統(tǒng)架構來處理每個圖像。人類視覺系統(tǒng)更接近于這種多視圖間接方法,因為它接收到的是渲染圖像流,而不是顯式的3D數(shù)據(jù)。
多視圖方法在3D形狀分類和分割任務中已經(jīng)取得了令人印象深刻的性能。然而,在多視圖表示中,如何正確聚合每個視圖的特征是一個挑戰(zhàn)。
使用間接方法處理3D視覺任務具有三個主要優(yōu)勢:(i) 成熟且可遷移的2D計算機視覺模型(如CNN、Transformers等),(ii) 大型和多樣化標記圖像數(shù)據(jù)集的預訓練支持(例如ImageNet),(iii) 多視圖圖像提供了豐富的上下文特征,根據(jù)視角提供信息,與幾何3D鄰域特征不同。
多視圖方法在3D形狀分類和分割方面取得了令人印象深刻的性能。然而,多視圖表示(特別是在密集預測任務中)的挑戰(zhàn)在于如何正確地聚合每個視圖的特征以獲得具有代表性的3D點云。需要進行適當?shù)木酆喜僮?,以獲得每個點具有適用于典型點云處理流程的單個特征。
因此,動機是將多視圖的思想與常用的3D點云表示相結合,以提高3D理解任務的性能。
以前的多視圖方法依賴于啟發(fā)式方法,例如將像素映射到點后進行平均或池化,或者與體素進行多視圖融合。然而,這種啟發(fā)式方法存在一些問題:(i) 這種方法可能會匯總來自不同視角的誤導性預測信息。例如,如果一個對象從底部視角獨立處理,而與其他視角結合時會產(chǎn)生錯誤的信息。(ii) 視圖缺乏幾何3D信息。
為了解決這些問題,提出了一種新的混合3D數(shù)據(jù)結構,它繼承了點云的優(yōu)點(緊湊性、靈活性和3D描述性),并利用了多視圖投影豐富的感知特征。這種新的表示稱為多視圖點云(或Voint cloud)。
引入了Voint cloud這個新的3D數(shù)據(jù)表示形式,并設計了VointNet 模型來學習和處理這種表示。
Voint cloud將每個3D點表示為從多個視角提取的特征集合,以融合點云表示的緊湊性和多視圖表示的自然感知能力。
作者通過將每個點表示為從多個視角提取的特征集合,構建了Voint cloud這種新的表示形式。這種表示繼承了點云表示的緊湊性和3D描述能力,并利用了多視圖投影的豐富感知特征。
Voint cloud是由一組Voint組成的,每個Voint都是與視圖相關的特征(視圖特征),對應于3D點云中的相同點。每個Voint中的視圖特征的數(shù)量可能會有所不同。
Voint cloud繼承了顯式3D點云的特性,這有助于學習適用于各種視覺任務(如點云分類和分割)的Voint表示。為了在新的Voint空間上應用深度學習,定義了一些基本操作,如池化和卷積。這些操作允許在Voint云上進行特征提取和處理。
作者通過定義在Voint級別的池化和卷積操作,構建了Voint neural network (VointNet ),并利用該網(wǎng)絡在Voint空間學習表示。
通過定義在Voint級別的池化和卷積操作,作者設計了VointNet 模型,可以學習和處理Voint cloud表示。通過這種方式,作者旨在提高3D視覺任務的性能,并在標準基準測試中展示出最先進的性能。
基于這些操作,提出了一種實用方法來構建Voint神經(jīng)網(wǎng)絡,稱為VointNet 。VointNet 接受Voint cloud作為輸入,并輸出用于3D點云處理的點云特征。并展示了學習這種Voint cloud表示如何在ScanObjectNN和ShapeNet等數(shù)據(jù)集上產(chǎn)生良好的結果。通過VointNet 能夠有效地處理和分析3D點云數(shù)據(jù),并為各種任務提供豐富的特征表示。
- 通過將每個點從不同視角的特征進行聚合,構建一個點云的緊湊而豐富的表示形式。
- 作者定義了Voint cloud的數(shù)據(jù)結構和基本操作,并在此基礎上設計了VointNet 模型。
- VointNet 接受Voint cloud作為輸入,輸出適用于3D點云處理的點云特征。
- 為了實現(xiàn)這個方法,作者在大規(guī)模的數(shù)據(jù)集上進行了實驗和評估,并與其他方法進行了比較。
該方法的好處:
- 繼承了點云表示的緊湊性和3D描述能力,同時利用了多視圖投影的豐富感知特征。
- 可以利用現(xiàn)有的2D計算機視覺模型和大規(guī)模圖像數(shù)據(jù)集進行預訓練,從而實現(xiàn)模型的遷移和加速訓練過程。
- 通過Voint cloud的池化和卷積操作,可以更好地融合來自多個視角的信息,從而提高3D理解任務的性能。
- 在標準基準測試中,該方法取得了最先進的性能,表明它在3D分類、檢索和分割等任務上具有優(yōu)越性能。
- 對于遮擋和旋轉等問題,該方法也展現(xiàn)出更好的魯棒性。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。