博客專欄

EEPW首頁 > 博客 > Multi-modal Multi-task Masked Autoencoder:一種簡單、靈活且有效的 ViT 預(yù)訓(xùn)練策略

Multi-modal Multi-task Masked Autoencoder:一種簡單、靈活且有效的 ViT 預(yù)訓(xùn)練策略

發(fā)布人:數(shù)據(jù)派THU 時(shí)間:2022-05-15 來源:工程師 發(fā)布文章

來源Deephub Imba

MAE是一種使用自監(jiān)督預(yù)訓(xùn)練策略的ViT,通過遮蔽輸入圖像中的補(bǔ)丁,然后預(yù)測(cè)缺失區(qū)域進(jìn)行子監(jiān)督與訓(xùn)練。盡管該方法既簡單又有效,但 MAE 預(yù)訓(xùn)練目標(biāo)目前僅限于單一模態(tài)——RGB 圖像——限制了在通常呈現(xiàn)多模態(tài)信息的實(shí)際場(chǎng)景中的應(yīng)用和性能。


在新論文 MultiMAE: Multi-modal Multi-task Masked Autoencoders 中,來自瑞士洛桑聯(lián)邦理工學(xué)院 (EPFL) 的團(tuán)隊(duì)提出了 Multi-modal Multi-task Masked Autoencoders (MultiMAE),也是一種預(yù)訓(xùn)練策略,可以對(duì)掩碼進(jìn)行自動(dòng)編碼處理并執(zhí)行多模態(tài)和多任務(wù)的訓(xùn)練。MultiMAE 使用偽標(biāo)簽進(jìn)行訓(xùn)練,使該框架適用于任何 RGB 數(shù)據(jù)集。
圖片
MultiMAE 的設(shè)計(jì)基于傳統(tǒng)的 Masked Autoencoding,但在兩個(gè)關(guān)鍵方面有所不同:

1、除了 RGB 圖像,它還可以選擇接受輸入中的附加模態(tài)信息(因此是“多模態(tài)”)2、其訓(xùn)練目標(biāo)相應(yīng)地包括 預(yù)測(cè)除 RGB 圖像之外的多個(gè)輸出(因此稱為“多任務(wù)”)。圖片
從架構(gòu)上看,MultiMAE 的編碼器是一個(gè) ViT,但每個(gè)額外的輸入模態(tài)都有補(bǔ)丁的投影層和一個(gè)帶有可學(xué)習(xí)的額外全局令牌嵌入,類似于 ViT 的類令牌。所以僅加載所需的輸入投影并忽略所有其他投影的MultiMAE 預(yù)訓(xùn)練權(quán)重可以直接用于標(biāo)準(zhǔn)單模態(tài) ViT。

圖片
為了執(zhí)行語義分割補(bǔ)丁投影,論文的作者用學(xué)習(xí)的 64 維的類嵌入替換每個(gè)類索引。并且僅對(duì)可見標(biāo)記的隨機(jī)子集進(jìn)行編碼,這樣可以顯著的加速計(jì)算和減少內(nèi)存使用,并且使用了具有三種密集輸入模態(tài)的 MultiMAE 多模態(tài)預(yù)訓(xùn)練。每個(gè)任務(wù)使用一個(gè)單獨(dú)的****,因此****的計(jì)算隨著任務(wù)的數(shù)量線性擴(kuò)展,并且只增加了最小的成本。

在他們的研究中,圖像分類、語義分割和深度估計(jì)這三個(gè)任務(wù)上對(duì) MultiMAE 進(jìn)行了預(yù)訓(xùn)練,并在 ImageNet-1K 上進(jìn)行偽標(biāo)記,然后在 ImageNet、ADE20K、Taskonomy、Hypersim 和 NYUv2 數(shù)據(jù)集上進(jìn)行微調(diào)。
圖片
結(jié)果表明,當(dāng) 只使用RGB 進(jìn)行微調(diào)時(shí),MultiMAE 保留了常規(guī) MAE 的優(yōu)勢(shì),并且它還可以利用深度等其他模態(tài),例如使用偽標(biāo)記深度或語義分割來提高性能。MultiMAE 預(yù)訓(xùn)練策略可以顯著提高遷移性能。

該項(xiàng)目的在 GitHub 上也公開了代碼、預(yù)訓(xùn)練模型和交互式可視化。論文 MultiMAE: Multi-modal Multi-task Masked Autoencoders 公開資料匯總地址如下:https://multimae.epfl.ch/


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

分頻器相關(guān)文章:分頻器原理


關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉