博客專欄

EEPW首頁 > 博客 > Meta AI 新研究,統(tǒng)一模態(tài)的自監(jiān)督新里程碑

Meta AI 新研究,統(tǒng)一模態(tài)的自監(jiān)督新里程碑

發(fā)布人:大數(shù)據(jù)文摘 時間:2022-02-19 來源:工程師 發(fā)布文章

雖然 AI 領(lǐng)域不斷涌現(xiàn)出新的突破和進(jìn)展,卻始終難以逃離單一領(lǐng)域的束縛——一種用于個性化語音合成的新穎方法,卻并不能用于識別人臉的表情。


為了解決這個問題,不少研究人員正在致力于開發(fā)功能更強(qiáng)大、應(yīng)用更廣泛的 AI 工具:無論在口頭、書面還是視覺材料上,都可以實(shí)現(xiàn)自主學(xué)習(xí)。


傳統(tǒng)訓(xùn)練 AI 模型正確理解某些內(nèi)容的方法是,提供大量(比如數(shù)百萬個)有標(biāo)記的例子。


試想一下,一幅標(biāo)有貓的部分特征的圖片,一段與演講者的對話或摘錄的文本,等等。但這種方法日趨淘汰,因?yàn)檠芯咳藛T發(fā)現(xiàn),手動創(chuàng)建訓(xùn)練下一代 AI 所需的數(shù)據(jù)庫已不再可行。試想一下,誰想給 5000 萬張貓的照片貼上標(biāo)簽?zāi)??好吧,可能有幾個人;但是誰又愿意給 5000 萬張常見水果和蔬菜的照片貼上標(biāo)簽?zāi)兀看鸢该黠@是否定的。


目前,最有前景的一些 AI 系統(tǒng)采用的就是所謂的“自我監(jiān)督”(self - supervision):模型可以在大量無標(biāo)簽數(shù)據(jù)(比如人們互動的書籍或視頻)中運(yùn)行,并建立自己對系統(tǒng)規(guī)則的結(jié)構(gòu)化理解。例如,模型通過閱讀 1000 本書,會自主學(xué)習(xí)語法結(jié)構(gòu),包括單詞的相對位置,而無需任何人告訴它什么是賓語、冠詞或逗號……這些完全可以從大量的例子中推理得出。


就在近日,基于上述理論,來自 Meta 的研究團(tuán)隊(duì)發(fā)表了一篇題為“data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language”的論文。


在這項(xiàng)研究中,開發(fā)人員構(gòu)建了一個名為 data2vec 的框架,可以跨語音處理、NLP 和計算機(jī)視覺(CV, Computer Vision)使用相同的學(xué)習(xí)方法,極大地克服了單一開發(fā)模式的缺陷,提高了模型的通用性能。


其核心思想是,在使用標(biāo)準(zhǔn) Transformer 體系結(jié)構(gòu)的自蒸餾設(shè)置中,基于輸入的掩碼視圖(masked view)預(yù)測完整輸入數(shù)據(jù)的潛在表示。data2vec 并非是預(yù)測特定模式的目標(biāo),比如像單詞、視覺 tokens 或語言單元等,而是預(yù)測包含來自整個輸入信息的上下文潛在表示。通過在語音識別、圖像分類和自然語言理解的主要基準(zhǔn)上進(jìn)行實(shí)驗(yàn),有力證明了該方法的技術(shù)水平和優(yōu)異性能。


從直覺上看,這更像是人們學(xué)習(xí)的方式,這也是研究人員喜歡它的原因之一。但是這些模型仍然趨向于單模態(tài),也就是說,你為建立語音識別的半監(jiān)督學(xué)習(xí)系統(tǒng)所做的所有工作根本不適用于圖像分析,兩者無疑是大相徑庭。從而,這就更加突顯出 Meta 這項(xiàng)最新研究的意義所在。


然而從本質(zhì)上看,data2vec 的想法就是建立一個 AI 框架,然后以更抽象的方式學(xué)習(xí)。這便意味著一切從零開始,你可以準(zhǔn)備一些可閱讀的書籍、可掃描的圖像或有聲的讀物供其訓(xùn)練,以使模型達(dá)到學(xué)習(xí)這些知識的目的。這有點(diǎn)像從一粒種子開始,給它不同植物的生存環(huán)境和營養(yǎng)條件,使其開出不同的花朵,如水仙、三色堇或郁金香。


總而言之,團(tuán)隊(duì)提出的方法就是將掩碼預(yù)測與潛在目標(biāo)表示的學(xué)習(xí)相結(jié)合,只不過是通過使用多個網(wǎng)絡(luò)層作為目標(biāo),對后者進(jìn)行推廣,并表明該方法適用于多種模式。


圖片


具體來說,如 圖 1 所示,團(tuán)隊(duì)成員需要訓(xùn)練一個現(xiàn)成的可以在教師模式和學(xué)生模式中使用的 Transformer 網(wǎng)絡(luò):首先需要構(gòu)建完整的輸入數(shù)據(jù)表示,其目的是充當(dāng)學(xué)習(xí)任務(wù)中的目標(biāo)(教師模式)。接下來,對輸入樣本的掩碼版本進(jìn)行編碼,用它預(yù)測完整的數(shù)據(jù)表示(學(xué)生模式)。教師的權(quán)重是學(xué)生權(quán)重指數(shù)衰減的平均值。由于不同的模式有著截然不同的輸入,例如,像素和單詞,因此,團(tuán)隊(duì)采用了特定于模式的特征編碼器和掩碼策略。


在整體架構(gòu)上,采用標(biāo)準(zhǔn) Transformer 體系結(jié)構(gòu),并沿用先前的工作對輸入數(shù)據(jù)進(jìn)行特定模式的編碼。


對于 CV,團(tuán)隊(duì)成員采用了 ViT 策略,將圖像編碼為一系列補(bǔ)丁序列,每個補(bǔ)丁跨越 16x16 像素,輸入到線性變換之中。語音數(shù)據(jù)使用多層一維 CNN 進(jìn)行編碼,該網(wǎng)絡(luò)將 16 kHz 波形映射為 50 Hz 表示。對文本進(jìn)行預(yù)處理以獲得子詞單元,然后通過學(xué)習(xí)得到的嵌入向量將其嵌入到分布空間中。


在訓(xùn)練目標(biāo)上,基于掩碼樣本的編碼訓(xùn)練模型,以預(yù)測原始未掩碼訓(xùn)練樣本的模型表示。需要注意的是,團(tuán)隊(duì)僅針對掩碼的時間步長預(yù)測模型表示。預(yù)測的表示是一種上下文的表示,不僅對特定的時間步長進(jìn)行編碼,還對來自樣本的其他信息進(jìn)行編碼,這是由于在 Transformer 網(wǎng)絡(luò)中使用了自注意力機(jī)制(Self-attention)。因此,相比于預(yù)測缺乏上下文信息目標(biāo)的 BERT、wav2vec 2.0 或BEiT、MAE、SimMIM 和 MaskFeat 模型,這是一條重要的區(qū)別。


在實(shí)驗(yàn)設(shè)置上,研究團(tuán)隊(duì)采用了兩種尺寸的模型:data2vec Base 和 data2vec Large,包含 H=768 或 1024 兩個隱藏維度的 L=12 或 24 的 Transformer blocks。


在用各種數(shù)據(jù)語料庫對 data2vec 進(jìn)行訓(xùn)練后,測試的結(jié)果表明,在該模式上,相比于類似規(guī)模的專用模型,它具有一定的競爭力,甚至表現(xiàn)得更加出色。(也就是說,如果所有模型都被限制在 100 兆字節(jié),data2vec 會做得更好——隨著模型規(guī)模的增大,專用模型取勝的幾率會更大。)


具體而言,為了評估該方法在 CV 領(lǐng)域的應(yīng)用,團(tuán)隊(duì)成員在 ImageNet-1K 訓(xùn)練集的圖像上預(yù)訓(xùn)練 data2vec,并使用相同基準(zhǔn)的標(biāo)記數(shù)據(jù)對圖像分類的結(jié)果模型進(jìn)行微調(diào)。結(jié)果如表 1 所示,data2vec 優(yōu)于之前使用 ViT-B 和 ViT-L 的研究工作。與預(yù)測局部目標(biāo)的方法相比,在掩碼預(yù)測設(shè)置中預(yù)測上下文的潛在表示可以很好地執(zhí)行。 


圖片


而在語音處理方面,團(tuán)隊(duì)成員使用 Librispeech (LS-960)的 960 小時語音音頻數(shù)據(jù)對 data2vec 進(jìn)行預(yù)訓(xùn)練。這個數(shù)據(jù)集包含了從英語有聲讀物中獲取的相對清晰的語音音頻,是語音社區(qū)的標(biāo)準(zhǔn)基準(zhǔn)。


為了了解不同資源設(shè)置下的性能,團(tuán)隊(duì)使用不同數(shù)量的標(biāo)記數(shù)據(jù)(從 10 分鐘到 960 小時不等)對自動語音識別模型進(jìn)行了微調(diào)。表 2 顯示了所有標(biāo)記數(shù)據(jù)設(shè)置的改進(jìn),很明顯,標(biāo)記數(shù)據(jù)為 10 分鐘時,收益達(dá)到最大值。


圖片


最后,為了了解 data2vec 在語言方面的表現(xiàn),研究團(tuán)隊(duì)采用了與BERT相同的訓(xùn)練設(shè)置,通過對圖書語料庫和英語維基百科的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練。結(jié)果如表 3 所示,data2vec 的性能優(yōu)于 RoBERTa 基線。據(jù)團(tuán)隊(duì)所知,這是首個不使用離散單元(單詞,子單詞,字符或字節(jié))作為訓(xùn)練目標(biāo)而成功完成預(yù)訓(xùn)練的 NLP 模型。


圖片


此外,研究團(tuán)隊(duì)還進(jìn)行了一系列的消融實(shí)驗(yàn),如圖 2 所示,對于大多數(shù)模式來說,預(yù)測多個層的平均目標(biāo)要比只預(yù)測最頂層(K = 1)更加穩(wěn)健。使用所有層通常是一個不錯的選擇,并且僅比仔細(xì)調(diào)整的 K 值稍差一點(diǎn)?,F(xiàn)代神經(jīng)網(wǎng)絡(luò)往往在多個層上構(gòu)建特征,并在不同的層上提取不同類型的特征。顯然,使用來自多個層的特征既豐富了自監(jiān)督任務(wù),又提高了準(zhǔn)確性。


圖片


在一篇博客文章中,該團(tuán)隊(duì)寫道:“這種方法的核心思想是更廣泛地學(xué)習(xí)。AI 應(yīng)該能夠?qū)W會做多種類型的任務(wù),包括那些完全不熟悉的任務(wù)。


我們也殷切希望 data2vec 能夠讓我們更接近這樣的一個世界,計算機(jī)只需要很少的標(biāo)記數(shù)據(jù)即可完成任務(wù)。”


除此之外,首席執(zhí)行官馬克·扎克伯格(Mark Zuckerberg)在研究中評論道,“人們通過視覺、聲音和文字的組合來體驗(yàn)世界,這樣的系統(tǒng)有朝一日可能會像我們一樣理解世界”。


顯然,這仍然屬于早期研究的范疇,所以不要期待傳說中的“通用人工智能”(GAI, General Artificial Intelligence)會突然出現(xiàn)。


不過,相比于當(dāng)下我們所使用的支離破碎的微智能(micro-intelligence),擁有一個具有通用學(xué)習(xí)結(jié)構(gòu)的 AI,以勝任處理各種領(lǐng)域和數(shù)據(jù)類型,這似乎是一個更完美、更優(yōu)雅的解決方案。


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉