博客專欄

EEPW首頁 > 博客 > 精度提升方法:自適應(yīng)Tokens的高效視覺Transformer框架

精度提升方法:自適應(yīng)Tokens的高效視覺Transformer框架

發(fā)布人:CV研究院 時(shí)間:2022-07-23 來源:工程師 發(fā)布文章

YOLOv7相同體量下比YOLOv5精度更高,速度快120%(FPS),比YOLOX快180%(FPS),比Dual-Swin-T快1200%(FPS),比ConvNext快550%(FPS),比SWIN-L快500%(FPS)。


01

概述


今天介紹的,是研究者新提出了A-ViT,一種針對不同復(fù)雜度的圖像自適應(yīng)調(diào)整vision transformers (ViT) 的推理成本的方法。A-ViT通過在推理進(jìn)行時(shí)自動減少在網(wǎng)絡(luò)中處理的視覺轉(zhuǎn)換器中的tokens數(shù)量來實(shí)現(xiàn)這一點(diǎn)

圖片

研究者為這項(xiàng)任務(wù)重新制定了自適應(yīng)計(jì)算時(shí)間(ACT[Adaptive computation time for recurrent neural networks]),擴(kuò)展了停止以丟棄冗余空間標(biāo)記。vision transformers吸引人的架構(gòu)特性使我們的自適應(yīng)tokens減少機(jī)制能夠在不修改網(wǎng)絡(luò)架構(gòu)或推理硬件的情況下加速推理。A-ViT不需要額外的參數(shù)或子網(wǎng)絡(luò)來停止,因?yàn)閷⒆赃m應(yīng)停止的學(xué)習(xí)建立在原始網(wǎng)絡(luò)參數(shù)的基礎(chǔ)上。與之前的ACT方法相比,進(jìn)一步引入了分布式先驗(yàn)正則化,可以穩(wěn)定訓(xùn)練。在圖像分類任務(wù)(ImageNet1K)中,展示了提出的A-ViT在過濾信息空間特征和減少整體計(jì)算方面的高效性。所提出的方法將DeiT-Tiny的吞吐量提高了62%,將DeiT-Small的吞吐量提高了38%,準(zhǔn)確率僅下降了0.3%,大大優(yōu)于現(xiàn)有技術(shù)。


02

背景


Transformers已經(jīng)成為一類流行的神經(jīng)網(wǎng)絡(luò)架構(gòu),它使用高度表達(dá)的注意力機(jī)制來計(jì)算網(wǎng)絡(luò)輸出。它們起源于自然語言處理(NLP)社區(qū),已被證明可有效解決NLP中的廣泛問題,例如機(jī)器翻譯、表示學(xué)習(xí)和問答。最近,vision transformers在視覺社區(qū)中越來越受歡迎,它們已成功應(yīng)用于廣泛的視覺應(yīng)用,例如圖像分類、目標(biāo)檢測、圖像生成和語義分割。最流行的范式仍然是vision transformers通過將圖像拆分為一系列有序的補(bǔ)丁來形成tokens并在tokens之間執(zhí)行inter-/intra-calculations以解決基礎(chǔ)任務(wù)。使用vision transformers處理圖像在計(jì)算上仍然很昂貴,這主要是由于tokens之間的交互次數(shù)的平方數(shù)。因此,在大量計(jì)算和內(nèi)存資源的情況下,在數(shù)據(jù)處理集群或邊緣設(shè)備上部署vision transformers具有挑戰(zhàn)性。

03

新框架分析


首先看下圖:

圖片

上圖是一種為vision transformers啟用自適應(yīng)tokens計(jì)算的方法。使用自適應(yīng)停止模塊來增加vision transformers塊,該模塊計(jì)算每個(gè)tokens的停止概率。該模塊重用現(xiàn)有塊的參數(shù),并從每個(gè)塊的最后一個(gè)密集層借用單個(gè)神經(jīng)元來計(jì)算停止概率,不施加額外的參數(shù)或計(jì)算。一旦達(dá)到停止條件,tokens就會被丟棄。通過自適應(yīng)停止tokens,我們僅對被認(rèn)為對任務(wù)有用的活動tokens執(zhí)行密集計(jì)算。結(jié)果,vision transformers中的連續(xù)塊逐漸接收到更少的tokens,從而導(dǎo)致更快的推理。學(xué)習(xí)到的tokens停止因圖像而異,但與圖像語義非常吻合(參見上面的示例)。這會在現(xiàn)成的計(jì)算平臺上立即實(shí)現(xiàn)開箱即用的推理加速。

圖片

A-ViT的一個(gè)例子:在可視化中,為了簡單起見,省略了(i)其他補(bǔ)丁標(biāo)記,(ii)類和補(bǔ)丁標(biāo)記之間的注意力以及(iii)殘差連接。 每個(gè)標(biāo)記的第一個(gè)元素保留用于停止分?jǐn)?shù)計(jì)算,不增加計(jì)算開銷。我們用下標(biāo)c表示類標(biāo)記,因?yàn)樗刑厥馓幚?。由k索引的每個(gè)token都有一個(gè)單獨(dú)的Nk累加器,并停在不同的深度。與標(biāo)準(zhǔn)ACT不同,平均場公式僅適用于分類標(biāo)記,而其他標(biāo)記通過注意力對類別標(biāo)記做出貢獻(xiàn)。這允許在不聚合圖像/補(bǔ)丁token的情況下進(jìn)行自適應(yīng)tokens計(jì)算。

圖片


04

實(shí)驗(yàn)分析及可視化


圖片

Original image (left) and the dynamic token depth (right) of A-ViT-T on the ImageNet-1K validation set. Distribution of token computation highly aligns with visual features. Tokens associated with informative regions are adaptively processed deeper, robust to repeating objects with complex backgrounds. Best viewed in color.

圖片

(a) ImageNet-1K驗(yàn)證集上A-ViT-T的每個(gè)圖像補(bǔ)丁位置的平均tokens深度。(b)通過變壓器塊的停止分?jǐn)?shù)分布。每個(gè)點(diǎn)與一個(gè)隨機(jī)采樣的圖像相關(guān)聯(lián),表示該層的平均tokens分?jǐn)?shù)。

圖片

由平均tokens深度確定的ImageNet-1K驗(yàn)證集中的難易樣本的視覺比較。請注意,上面的所有圖像都被正確分類——唯一的區(qū)別是難樣本需要更多的深度來處理它們的語義信息。與右側(cè)圖像相比,左側(cè)圖像中的標(biāo)記退出大約5層。

圖片

圖片

圖片


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉