博客專欄

EEPW首頁 > 博客 > 語義分割綜述(2)

語義分割綜述(2)

發(fā)布人:計算機視覺工坊 時間:2021-10-07 來源:工程師 發(fā)布文章

通過擴張卷積進行多尺度上下文聚合

論文:Multi-Scale Context Aggregation by Dilated Convolutions (ICLR, 2016)

代碼:https://github.com/fyu/dilation

在本文中,開發(fā)了一種融合多尺度上下文信息而不損失分辨率的卷積網(wǎng)絡(luò)模塊。然后可以將該模塊插入到任何分辨率的現(xiàn)有架構(gòu)中。該模塊基于擴張卷積。

該模塊在 Pascal VOC 2012 數(shù)據(jù)集上進行了測試。它證明向現(xiàn)有語義分割架構(gòu)添加上下文模塊可以提高其準確性。

11.png

在實驗中訓(xùn)練的前端模塊在 VOC-2012 驗證集上實現(xiàn)了 69.8% 的平均 IoU,在測試集上實現(xiàn)了 71.3% 的平均 IoU。該模型對不同物體的預(yù)測精度如下圖

12.png

DeepLab:使用深度卷積網(wǎng)絡(luò)、Atrous 卷積和全連接 CRF 進行語義圖像分割

論文:DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs (TPAMI, 2017)

代碼:https://github.com/tensorflow/models (非官方)

在本文中,作者對深度學(xué)習的語義分割任務(wù)做出了以下貢獻:

用于密集預(yù)測任務(wù)的帶有上采樣濾波器的卷積

用于多尺度分割目標的多孔空間金字塔池化 (ASPP)

通過使用 DCNN 改進對象邊界的定位。

論文提出的 DeepLab 系統(tǒng)在 PASCAL VOC-2012 語義圖像分割任務(wù)上實現(xiàn)了 79.7% mIOU。

13.png

該論文解決了在語義分割中使用深度 CNN 的主要挑戰(zhàn),其中包括:

重復(fù)組合最大池化和下采樣導(dǎo)致的特征分辨率降低。

多尺度目標的存在。

由于以目標為中心的分類器需要空間變換的不變性,因此 DCNN 的不變性導(dǎo)致定位精度降低。

14.png

Atrous 卷積是通過插入零對濾波器進行上采樣或?qū)斎胩卣鲌D進行稀疏采樣來應(yīng)用的。第二種方法需要對輸入特征圖進行一個等于多孔卷積率 r 的子采樣,并對其進行去隔行掃描以生成 r^2 個降低分辨率的圖,每個 r×r 可能的移位一個。在此之后,標準卷積應(yīng)用于直接特征圖,將它們與圖像的原始分辨率交錯。

重新思考語義圖像分割的 Atrous 卷積 

論文:Rethinking Atrous Convolution for Semantic Image Segmentation (2017)

代碼:https://github.com/pytorch/vision (非官方)

本文解決了使用 DCNN 進行語義分割的兩個挑戰(zhàn)(前面提到過);應(yīng)用連續(xù)池化操作和多個尺度對象的存在時發(fā)生的特征分辨率降低。

為了解決第一個問題,論文建議使用atrous卷積,也稱為擴張卷積。它提出使用多孔卷積來擴大視野并因此包括多尺度上下文來解決第二個問題。

15.png

該論文的“DeepLabv3”在沒有 DenseCRF 后處理的 PASCAL VOC 2012 測試集上實現(xiàn)了 85.7% 的性能。

16.png

用于語義圖像分割的具有 Atrous 可分離卷積的編碼器-**** 

論文:Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation (ECCV, 2018)

代碼:https://github.com/tensorflow/models

本文的方法“DeepLabv3+”在沒有對 PASCAL VOC 2012 和 Cityscapes 數(shù)據(jù)集進行任何后處理的情況下實現(xiàn)了 89.0% 和 82.1% 的測試集性能。該模型是 DeepLabv3 的擴展,通過添加一個簡單的****模塊來細化分割結(jié)果。

17.png

該論文實現(xiàn)了兩種類型的神經(jīng)網(wǎng)絡(luò),它們使用空間金字塔池化模塊進行語義分割。一種通過匯集不同分辨率的特征來捕獲上下文信息,而另一種則獲得清晰的對象邊界。

18.png

*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: 深度學(xué)習

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉