博客專欄

EEPW首頁 > 博客 > ECCV 2022丨輕量級模型架構(gòu)火了,力壓蘋果MobileViT(附代碼和論文下載)

ECCV 2022丨輕量級模型架構(gòu)火了,力壓蘋果MobileViT(附代碼和論文下載)

發(fā)布人:CV研究院 時間:2022-08-20 來源:工程師 發(fā)布文章

圖片

論文地址:https://arxiv.org/abs/2203.03952

代碼地址:https://github.com/hkzhang91/ParC-Net



01

概述


最近,vision transformers開始顯示出令人印象深刻的結(jié)果,顯著優(yōu)于基于大型卷積的模型。然而,在移動或資源受限設(shè)備的小型模型領(lǐng)域,ConvNet在性能和模型復(fù)雜度方面仍然具有自己的優(yōu)勢。研究者提出了ParC-Net,這是一種純基于ConvNet的骨干模型,通過將vision transformers的優(yōu)點融合到ConvNet 中,進一步增強了這些優(yōu)勢。

圖片

ConvNet與ViT模型圖像分類實驗結(jié)果對比

具體來說,研究者提出了位置感知循環(huán)卷積(ParC),這是一種輕量級的卷積運算,它擁有全局感受野,同時產(chǎn)生與局部卷積一樣的位置敏感特征。將ParCssqueeze-exictation ops結(jié)合起來形成一個類似于元模型的模型塊,它還具有類似于transformers的注意力機制。上述塊可以即插即用的方式使用,以替換ConvNets或transformers中的相關(guān)塊。

圖片


實驗結(jié)果表明,在常見的視覺任務(wù)和數(shù)據(jù)集中,所提出的ParC-Net比流行的輕量級ConvNets和基于vision transformers的模型具有更好的性能,同時具有更少的參數(shù)和更快的推理速度。對于ImageNet-1k上的分類,ParC-Net在大約500萬個參數(shù)的情況下實現(xiàn)了78.6%的top-1準確率,節(jié)省了11%的參數(shù)和13%的計算成本,但準確率提高了0.2%,推理速度提高了23%(基于ARM的Rockchip RK3288)與MobileViT相比,僅使用0.5倍的參數(shù),但與DeIT相比獲得了2.7%的準確度。在MS-COCO目標檢測和PASCAL VOC分割任務(wù)上,ParC-Net也表現(xiàn)出更好的性能。

02

背景


然而,我們認為ViTs和ConvNets都是不可或缺的,原因如下:1)從應(yīng)用的角度來看,ViTs和ConvNets都有其優(yōu)點和缺點。ViT模型通常具有更好的性能,但通常計算成本高且難以訓(xùn)練。與ViTs相比,ConvNets可能表現(xiàn)出較差的性能,但它們?nèi)匀痪哂幸恍┆毺氐膬?yōu)勢。例如,ConvNets具有更好的硬件支持并且易于訓(xùn)練。此外,正如[Jianyuan Guo, Kai Han, Han Wu, Chang Xu, Yehui Tang, Chunjing Xu, and Yunhe Wang. Cmt: Convolutional neural networks meet vision transformers.]和研究者的實驗中總結(jié)的那樣,ConvNets在移動或邊緣設(shè)備的小型模型領(lǐng)域仍然占主導(dǎo)地位。2)從信息處理的角度來看,ViTs和ConvNets都具有獨特的特征。ViT擅長提取全局信息,并使用注意力機制從輸入數(shù)據(jù)驅(qū)動的不同位置提取信息。ConvNets專注于對局部關(guān)系進行建模,并且通過歸納偏置具有很強的先驗性。上述分析自然提出了一個問題:我們能否向ViT學(xué)習(xí)以改進用于移動或邊緣計算應(yīng)用的ConvNet?

ViT論文:https://arxiv.org/abs/2010.11929

ConvNeXt論文:https://arxiv.org/abs/2201.03545


03

新框架


研究者們?nèi)iT的三個亮點,將純卷積結(jié)構(gòu)變強。研究者認為,ViT和ConvNet有三個主要區(qū)別:ViT更擅長提取全局特征,采用meta-former結(jié)構(gòu),而且信息集成由數(shù)據(jù)驅(qū)動。ParC的設(shè)計思路便是從這三點著手來優(yōu)化ConvNet。

圖片

普通ConvNet和ViT之間的三個主要區(qū)別。a)ConvNet常用的Residual block;b)ViT中常用的Meta-Former 結(jié)構(gòu);c)研究者提出的ParC block。

具體而言,研究人員設(shè)計了一種位置信息敏感的循環(huán)卷積(Position aware circular convolution, ParC)。這是一種簡單有效的輕量卷積運算算子,既擁有像ViT類結(jié)構(gòu)的全局感受野,同時產(chǎn)生了像局部卷積那樣的位置敏感特征,能克服依賴自注意力結(jié)構(gòu)提取全局特征的問題。

圖片

Position aware circular convolution

圖片

水平方向的全局循環(huán)卷積可以看到ParC-H沿著通過連接輸入的開始和結(jié)束生成的圓執(zhí)行卷積。因此,研究者將提出的卷積命名為循環(huán)卷積。提議的ParC引入了三個修改:

  • 結(jié)合circular padding和大感受野低秩分解卷積核提取全局特征;
  • 引入位置嵌入,保證輸出特征對于空間位置信息的敏感性;
  • 動態(tài)插值實時生成尺寸適配的卷積核和位置編碼,應(yīng)對輸入分辨率變化情況,這增強了對不同尺寸輸入的適應(yīng)能力。

研究者還將ParC和squeeze exictation結(jié)合起來,構(gòu)建了一個純卷積結(jié)構(gòu)的meta former結(jié)構(gòu)。該結(jié)構(gòu)舍棄了自注意力硬件支持不友好的操作,但保留了傳統(tǒng)Transformer塊提取全局特征的特點。究者還在channel mixer部分引入硬件支持較友好的通道注意力機制,使其純卷積meta former結(jié)構(gòu)也具備自注意力的特點。

基于ParC結(jié)構(gòu)最終得到的ParC塊,可作為一個即插即用的基礎(chǔ)單元,替換現(xiàn)有ViT或ConvNet模型中的相關(guān)塊,從而提升精度,并降低計算成本,有效克服硬件支持的問題。

圖片

三種主要的混合結(jié)構(gòu)。(a) serial structure; (b) parallel structure; (c) bifurcate structure。

04

實驗分析


圖片

在圖像分類實驗中,對于ImageNet-1k的分類,ParC-Net使用的參數(shù)規(guī)模最?。s500萬個參數(shù)),卻實現(xiàn)了最高準確率78.6%。

圖片

MobileViT是Apple2022年在國際深度學(xué)習(xí)頂會ICLR22上提出的輕量級通用ViT模型。同樣部署在基于Arm的瑞芯微RK3288芯片上,相較基線模型MobileViT,ParC-Net節(jié)省了11%的參數(shù)和13%的計算成本,同時準確率提高了0.2%,推理速度提高了23%。

圖片

MS-COCO物體檢測實驗結(jié)果

圖片

PASCAL VOC分割任務(wù)實驗結(jié)果

圖片

研究者將ParC-Net和基線模型MobileVit均部署到自研低功耗芯片DP上進行推理速度測試。從實驗結(jié)果可以看到,ParC-Net的推理速度能夠達到MobileViT速度的3~4倍。


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。

linux操作系統(tǒng)文章專題:linux操作系統(tǒng)詳解(linux不再難懂)


關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉