卷積神經網絡在深度學習中新發(fā)展的5篇論文推薦

發(fā)布人：數(shù)據(jù)派THU 時間：2022-07-23 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

來源：DeepHub IMBA

1. Deformable CNN and Imbalance-Aware Feature Learning for Singing Technique Classification

Yuya Yamamoto, Juhan Nam, Hiroko Terasawahttps://arxiv.org/pdf/2206.12230
歌唱技術是利用音色、音高和聲音的其他成分的時間波動來進行富有表現(xiàn)力的聲樂表演。它們的分類是一項具有挑戰(zhàn)性的任務，這主要是因為兩個因素：

歌唱技術的波動種類繁多，受多種因素的影響；
現(xiàn)有數(shù)據(jù)集不平衡。

為了解決這些問題，論文開發(fā)了一種新的基于變形卷積的音頻特征學習方法，利用類加權損失函數(shù)對特征提取器和分類器進行解耦訓練。實驗結果表明：1）可變形卷積提高了分類效果，特別是應用于最后兩層卷積時；2）對分類器進行再訓練，并通過平滑的反頻率加權交叉熵損失函數(shù)，提高了分類性能。

2. CNN-based fully automatic wrist cartilage volume quantification in MR Image

Nikita Vladimirov, Ekaterina Brui, Anatoliy Levchuk, Vladimir Fokin, Aleksandr Efimtcev, David Bendahanhttps://arxiv.org/pdf/2206.11127
軟骨缺失的檢測對骨關節(jié)炎和類風濕關節(jié)炎的診斷至關重要。到目前為止已有大量關于關節(jié)磁共振圖像軟骨評估的自動分割工具的論文。與膝關節(jié)或髖關節(jié)相比，腕關節(jié)軟骨的結構更為復雜，針對大關節(jié)開發(fā)的自動工具無法用于腕關節(jié)軟骨的分割。但是全自動腕關節(jié)軟骨分割方法具有很高的臨床價值，所以論文通過優(yōu)化U-Net架構的深度和增加注意層(U-Net_AL)，評估了U-Net架構的四種優(yōu)變體的性能。并·將相應的結果與之前設計的基于patch的卷積神經網絡(CNN)的結果進行比較。分割質量的評估基于使用幾種形態(tài)學（2D DSC、3D DSC、精度）和體積指標與手動分割進行的比較分析。
這四種網絡在分割的同質性和質量上都優(yōu)于基于patch的CNN。U-Net_AL計算的三維DSC中值(0.817)顯著大于其他網絡計算的相應三維DSC值。此外U-Net_AL CNN提供了最小的平均體積誤差(17%)和相對于真實值最高的Pearson相關系數(shù)(0.765)。使用U-Net_AL計算的再現(xiàn)性比手動分割的再現(xiàn)性更大。帶有附加注意力層的U-net卷積神經網絡提供了最佳的手腕軟骨分割性能。為了在臨床條件下使用，經過訓練的網絡可以對代表一組特定患者的數(shù)據(jù)集進行微調。

3. EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for Mobile Vision Applications

Muhammad Maaz, Abdelrahman Shaker, Hisham Cholakkal, Salman Khan, Syed Waqas Zamir, Rao Muhammad Anwer, Fahad Shahbaz Khanhttps://arxiv.org/pdf/2206.10589
為了追求精度的不斷提高，通常需要開發(fā)大型和復雜的神經網絡。這種模型需要很高的計算資源，因此不能部署在邊緣設備上。所以構建資源高效的通用網絡在多個應用領域都受到到了很大的關注。這篇論文的工作有效地結合了CNN和Transformer模型的優(yōu)勢，并提出了一種新的高效混合架構EdgeNeXt。
特別是在EdgeNeXt中，引入了分割深度轉置注意力(SDTA)編碼器，該編碼器將輸入分割為多個信道組，并利用深度卷積和跨信道維度的自注意力來隱式增加接收場并編碼多尺度特征。通過在分類、檢測和分割任務上的大量實驗，證明了提出的方法的優(yōu)點：相對較低的計算要求并優(yōu)于最先進的方法。以 2.2% 的絕對增益和 28% 的 FLOP 減少的絕對增益超過了 MobileViT。EdgeNeXt模型具有5.6M參數(shù)，在ImageNet-1K上實現(xiàn)了79.4% top-1精度。

4. Scaling up Kernels in 3D CNNs

Yukang Chen, Jianhui Liu, Xiaojuan Qi, Xiangyu Zhang, Jian Sun, Jiaya Jiahttps://arxiv.org/abs/2206.10555
2D CNN 和 ViT 的最新進展表明，大內核對于足夠的感受野和高性能至關重要。受這些論文的啟發(fā)，該論文研究了 3D 大內核設計的可行性和挑戰(zhàn)。證明了在 3D CNN 中應用大卷積核在性能和效率上有更多的困難。在 2D CNN 中運行良好的現(xiàn)有技術在 3D 網絡中是無效的，包括流行的 depth-wise convolutions。為了克服這些問題，論文提出了空間組卷積及其大內核模塊（SW-LK 塊）。避免了傳統(tǒng)的 3D 大內核的優(yōu)化和效率問題。論文提出的大內核 3D CNN 網絡，即 LargeKernel3D，對各種 3D 任務（包括語義分割和對象檢測）產生了重大改進。它在ScanNetv2語義分割上實現(xiàn)了73.9%的mIoU，在NDS nuScenes對象檢測基準上實現(xiàn)了72.8%，在nuScenes LIDAR排行榜上排名第一。通過簡單的多模態(tài)融合，NDS 進一步提升至 74.2%。LargeKernel3D 獲得了與其 CNN 和 Transformer 相當或更好的結果。并首次證明大內核對于 3D 網絡是可行且必不可少的。

5. MEStereo-Du2CNN: A Novel Dual Channel CNN for Learning Robust Depth Estimates from Multi-exposure Stereo Images for HDR 3D Applications

Rohit Choudhary, Mansi Sharma, Uma T V, Rithvik Anilhttps://arxiv.org/pdf/2206.10375
顯示技術中的HDR捕獲、處理和顯示解決方案是至關重要的。在開發(fā)高性價比的3D HDR視頻內容中，多曝光立體圖像序列的深度估計是一項必不可少的任務。這篇論文提出并開發(fā)了一種新的深度架構用于多重曝光立體聲深度估計。提出的體系結構有兩個新的組件。

對傳統(tǒng)的立體深度估計中使用的立體匹配技術進行了改進，部署了一種立體遷移學習方法，該方法避開了成本體積構造的要求，采用基于ResNet的不同權重的雙編碼器和單****CNN進行特征融合，并使用基于effentnet的塊來學習視差。
利用魯棒的視差特征融合方法，將不同曝光水平下立體圖像的視差圖進行組合。用不同的曝光獲得的視差圖合并使用權重圖計算不同的質量。最終得到的預測視差圖具有更強的魯棒性，并保留了深度不連續(xù)的最佳特征。論文提出的CNN架構在具有挑戰(zhàn)性的場景流和不同曝光的Middlebury立體數(shù)據(jù)集上，在定量和定性方面都超過了最先進的單眼和立體深度估計方法。該架構在復雜的自然場景中也表現(xiàn)得非常好，證明了它對各種3D HDR應用程序都是有用的。

作者：monodeep

*博客內容為網友個人發(fā)布，僅代表博主個人觀點，如有侵權請聯(lián)系工作人員刪除。

博客專欄

卷積神經網絡在深度學習中新發(fā)展的5篇論文推薦

相關推薦

技術專區(qū)