AAAI 2022｜AI頂會(huì)論文究竟關(guān)注什么？（3）

發(fā)布人：MSRAsia 時(shí)間：2022-02-19 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

用于文本摘要任務(wù)的序列級對比學(xué)習(xí)模型

論文鏈接：https://arxiv.org/abs/2109.03481
文本摘要（Text Summarization）的主要目標(biāo)就是提煉一篇長文章的主要內(nèi)容，將其改寫成一篇概括性的摘要。按照改寫的方式，通常將摘要分為抽取式摘要和生成式摘要兩種。抽取式摘要是指從原文中抽取幾個(gè)句子作為摘要，而生成式摘要?jiǎng)t需要模型對整個(gè)長文章有一個(gè)整體的理解，然后生成一段簡潔、連貫的摘要。
目前來說生成式摘要主要是在 sequence-to-sequence 框架下完成的（如圖13所示）。通過一個(gè)編碼器（Encoder）對長的文章進(jìn)行編碼，再用一個(gè)****（Decoder）對編碼后的信息進(jìn)行解碼并生成想要的摘要。在訓(xùn)練過程中，通常使用的是NLL（Negative Log Likelihood）作為損失函數(shù)。
圖13：Sequence-to-Sequence 訓(xùn)練中使用的 NLL 損失函數(shù)
但是微軟亞洲研究院的研究員們意識到 NLL 并沒有很好地建模文本摘要任務(wù)一個(gè)重要的特點(diǎn)：文章和摘要雖然長度的差別很大，但是所描述的主要內(nèi)容應(yīng)該是一致的。為了更好地在訓(xùn)練過程中強(qiáng)調(diào)這一點(diǎn)，研究員們引入了序列間對比學(xué)習(xí)模型 SeqCo（Sequence-level Contrastive Learning），將文章和摘要映射到成同一個(gè)向量空間的兩個(gè)序列，并且在該向量空間內(nèi)拉近文章序列和摘要序列的相似度。
除此之外，為了增加訓(xùn)練樣本的多樣性，研究員們還將模型生成的摘要也加入到訓(xùn)練樣本中。整個(gè)訓(xùn)練過程在優(yōu)化 NLL 的同時(shí)，也在拉近原文章、目標(biāo)摘要和模型生成的摘要三者的相似度(如圖15所示)。在訓(xùn)練過程中，跟 BYOL 類似，研究員們采用了雙塔型的結(jié)構(gòu)（見圖14）。為提高訓(xùn)練的穩(wěn)定性，對比學(xué)習(xí)目標(biāo)端的參數(shù)為其對比端的移動(dòng)平均值（moving average）并停止梯度回傳。
圖14：訓(xùn)練過程的對比學(xué)習(xí)損失函數(shù)
圖15：拉近原文章、目標(biāo)摘要和模型生成的摘要三者的相似度
實(shí)驗(yàn)結(jié)果表明，和僅僅使用了 NLL 作為損失函數(shù)的模型相比，在訓(xùn)練中引入對比學(xué)習(xí)使得模型的效果在 CNNDM、XSum 和 NYT 摘要數(shù)據(jù)集上都得到了顯著的提升（表8為在 CNNDM 上的結(jié)果，在其他數(shù)據(jù)集上的結(jié)果具有相同趨勢）。
表8：CNN/DM數(shù)據(jù)集上不同方法的性能比較

針對圖片識別的稀疏MLP：自注意力機(jī)制真的是必要的嗎？

論文鏈接：https://arxiv.org/pdf/2109.05422.pdf代碼鏈接：https://github.com/microsoft/SPACH
最近，Transformer 在計(jì)算機(jī)視覺領(lǐng)域取得了領(lǐng)先性能并得到了學(xué)者的廣泛關(guān)注。其中，自注意力機(jī)制(Self-Attention)是 Transformer 取得成功的核心模塊。它以一種動(dòng)態(tài)的方式捕獲圖片的全局感受野。然而，由于需要計(jì)算每兩個(gè) token 之間的關(guān)系，它的時(shí)間復(fù)雜度是平方量級的，因此，難以處理高分辨率圖片，并且對金字塔結(jié)構(gòu)（pyramid structure）很不友好。而高分辨率輸入和金字塔結(jié)構(gòu)是提高圖片識別性能的關(guān)鍵要素。此外，Transformer 完全摒棄了局部偏置（locality bias）。這種局部偏置也是卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺取得成功的重要因素。
另一方面，也有學(xué)者對自注意力機(jī)制的必要性提出了質(zhì)疑。MLP-Mixer設(shè)計(jì)了一種單純使用多層感知機(jī)（MLP）的網(wǎng)絡(luò)架構(gòu)。它與基于 Transformer 的網(wǎng)絡(luò)架構(gòu) ViT 的主要區(qū)別是在空域上進(jìn)行 token 之間的交互時(shí)僅使用了 MLP 來替代自注意力機(jī)制。MLP 由于參數(shù)量大容易過擬合，因此效果與基于 Transformer 的方法比還有差距。然而，這并不能證明自注意力機(jī)制一定是必要的。
在進(jìn)行全局建模時(shí)，本文設(shè)計(jì)了一種不基于自注意力機(jī)制的方法——稀疏的多層感知機(jī)（sparse MLP）模塊。每個(gè) token 只與其所在行和所在列的 token 進(jìn)行直接交互。這種方法參數(shù)量低，緩解了 MLP 容易過擬合的問題，同時(shí)又可以快速地捕獲全局感受野。

圖16：傳統(tǒng) MLP 與本文提出的稀疏 MLP 對比示意圖
基于 sparse MLP，配合局部偏置和金字塔結(jié)構(gòu)這種對于圖片識別很重要的設(shè)計(jì)理念，該方法達(dá)到了和基于自注意力機(jī)制的方法一樣的性能。這說明自注意力機(jī)制并不是必須的，也希望本文可以啟發(fā)更多研究人員關(guān)注不基于自注意力機(jī)制的方法。

表9：在 ImageNet-1k 上與主流方法的性能比較

Shift 操作與 Transformer 的結(jié)合：一種高效的 Attention 替代方案

代碼鏈接：https://github.com/microsoft/SPACH
最近， Vision Transformer 的結(jié)構(gòu)引起了研究者們的廣泛關(guān)注。在許多計(jì)算機(jī)視覺的任務(wù)中，Vision Transformer 都取得了領(lǐng)先的性能。那么，由此引發(fā)的一個(gè)問題就是：Vision Transformer 性能優(yōu)異的原因究竟是什么？
此前，許多研究者相信，自注意力機(jī)制（Self-Attention）是讓Vision Transformer 成功的主要原因。相比與常見的卷積操作，自注意機(jī)制提供了一種全局的（global）、動(dòng)態(tài)的（dynamic）方式去建模圖像中的空間關(guān)系。但是，最近的一些研究表明，全局性和動(dòng)態(tài)性可能都不是必須的，例如 Swin Transformer 將全局的 Attention 轉(zhuǎn)換為局部的 Attention；MLP-Mixer 將動(dòng)態(tài)的聚合權(quán)重變成了固定的全連接層。實(shí)驗(yàn)證明，這些簡化都沒有損害自注意力機(jī)制的性能。為了進(jìn)一步探索是什么讓 Transformer 成功，微軟亞洲研究院的研究員們希望進(jìn)一步去簡化 Attention 的模塊。具體來說，研究員們將簡化推向一種極端情況：沒有全局性、沒有動(dòng)態(tài)性、甚至沒有參數(shù)、沒有算術(shù)運(yùn)算。這個(gè)操作就是鄰域的移位操作（Shift）。
移位操作在計(jì)算機(jī)視覺已經(jīng)有了很成功的應(yīng)用。所以研究員們借鑒了部分移位的設(shè)計(jì)，其結(jié)構(gòu)如圖17所示。對于輸入的特征，研究員們將一部分的通道向上、下、左、右四個(gè)方向分別移位一個(gè)像素。通過這種方式，使得模型能夠獲取鄰域位置的信息。
圖17：Shift 模塊與標(biāo)準(zhǔn)注意力模塊對比示意圖
研究員們采用這個(gè)簡單的操作去替代 Swin Transformer 中的 Attention。令人驚訝的是，在許多視覺任務(wù)上，它的效果并不亞于 Swin Transformer。這說明 Transformer 成功的因素可能并不完全是由于 Attention ：哪怕是這么一個(gè)0參數(shù)量、0計(jì)算量的簡單操作都能夠取得相近的性能。因此，在今后的研究中，Transformer 的一些設(shè)計(jì)細(xì)節(jié)或許也應(yīng)該受到大家的重視，例如訓(xùn)練細(xì)節(jié)、歸一化的方式等等。在文章中，微軟亞洲研究院的研究員們也進(jìn)行了一些初步的探討，希望能夠啟發(fā)大家的思考。
表10：與基準(zhǔn)模型在各視覺任務(wù)中的性能對比

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請聯(lián)系工作人員刪除。

博客專欄

AAAI 2022｜AI頂會(huì)論文究竟關(guān)注什么？（3）

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

AAAI 2022｜AI頂會(huì)論文究竟關(guān)注什么？（3）

相關(guān)推薦

技術(shù)專區(qū)

AAAI 2022｜AI頂會(huì)論文究竟關(guān)注什么？（3）