博客專欄

EEPW首頁 > 博客 > NLP預訓練范式大一統(tǒng),不再糾結下游任務類型,谷歌這個新框架刷新50個SOTA

NLP預訓練范式大一統(tǒng),不再糾結下游任務類型,谷歌這個新框架刷新50個SOTA

發(fā)布人:機器之心 時間:2022-05-15 來源:工程師 發(fā)布文章

在這篇論文中,來自谷歌的研究者提出了一種統(tǒng)一各種預訓練范式的預訓練策略,這種策略不受模型架構以及下游任務類型影響,在 50 項 NLP 任務中實現(xiàn)了 SOTA 結果。


圖片


當前,NLP 研究人員和從業(yè)者有大量的預訓練模型可以選擇。在回答應該使用什么模型的問題時,答案通常取決于需要完成什么任務。
這個問題并不容易回答,因為涉及許多更細節(jié)的問題,例如使用什么樣的架構?span corruption 還是語言模型?答案似乎取決于目標下游任務。
來自谷歌的研究者重新思考了這一問題,他們具體回答了為什么預訓練 LM 的選擇要依賴于下游任務,以及如何預訓練在許多任務中普遍適用的模型。
該研究試圖讓普遍適用的語言模型成為可能,提出了一個統(tǒng)一的語言學習范式,簡稱 UL2 框架。該框架在一系列非常多樣化的任務和環(huán)境中均有效。

圖片


  • 論文鏈接:https://arxiv.org/pdf/2205.05131.pdf

  • 代碼地址:https://github.com/google-research/google-research/tree/master/ul2


如下圖 1 所示,與其他需要權衡取舍的模型不同。UL2 模型的性能普遍良好。

圖片


通用模型的優(yōu)勢是顯而易見的。有了通用模型,研究者就可以集中精力改進和擴展單個模型,而不是在 N 個模型上分散資源。此外,在只能為少數(shù)模型提供資源的受限環(huán)境下,最好有一個可以在多種任務上表現(xiàn)良好的預訓練模型。
UL2 的核心是一種新提出的預訓練目標 Mixture-of-Denoisers(MoD),可實現(xiàn)跨任務的強大性能。MoD 是幾個成熟的去噪目標和新目標的混合體,包括考慮 extreme span 長度和損壞率的 X-denoising(extreme denoising)、嚴格遵循序列順序的 S-denoising(sequential denoising)和標準 span 損壞目標的 R-denoising(regular denoising)。該研究表明,MoD 雖然在概念上很簡單,但對于多種任務都非常有效。
該方法利用一種思路:對于大多數(shù)預訓練目標來說,模型所依賴的上下文類型各有不同。例如,span corruption 目標類似于調用前綴語言建模 (PLM) 的多個區(qū)域(Liu et al., 2018; Raffel et al., 2019),其中前綴是 non-corrupted token 的連續(xù)片段,目標(target)具有所有 PLM 片段前綴的訪問權限。span 接近全序列長度的設置可以近似看作一個以長程上下文為條件的語言建模目標。
因此,研究者認為可以設計一個預訓練目標,將這些不同的范式結合起來( span corruption vs 語言建模 vs 前綴語言建模)。
不難看出,每個去噪器(denoiser)的難度不同,其外推或內插的性質也不同。
根據 MoD 的公式,研究者推測該模型不僅能在預訓練期間區(qū)分不同的去噪器,而且在學習下游任務時能自適應地切換模式,這種形式是很有益的。
該研究提出了模式切換,這是一個將預訓練任務與專用標記 token 相關聯(lián)的新概念,允許通過離散 prompting 進行動態(tài)模式切換。該模型在經過預訓練后能夠按需在 R、S 和 X 去噪器之間切換模式。
然后,研究者將該架構與自監(jiān)督方案解耦。雖然「預訓練模型的主要特征是其主干架構」這一說法可能是一個常見的誤解,但研究者發(fā)現(xiàn),denoiser 的選擇實際上具有更大的影響。MoD 支持任一主干架構,類似于 T5 的 span corruption 可以用一個 decoder-only 模型來訓練。因此,架構的選擇對 UL2 影響不大。研究者認為主干架構的選擇主要是不同效率指標之間的權衡。
研究者在 9 種不同的任務上進行了系統(tǒng)的消融實驗,這 9 個任務旨在解決不同的問題。
此外,該研究在開放文本生成任務上進行了評估,并在基于 prompt 的單樣本環(huán)境下對所有任務進行了評估。消融實驗的結果表明,UL2 在所有 9 個任務上都優(yōu)于 T5 和 GPT 類基線。平均而言,UL2 比 T5 基線高出 +43.6%,比一個語言模型高出 +76.1%。在其他競爭基線中,UL2 是唯一在所有任務上都優(yōu)于 T5 和 GPT 類模型的方法。
研究者進一步將 UL2 擴展到大約 20B(準確地說是 19.5 B)參數(shù)的中等規(guī)模,并在包含 50 多個 NLP 任務的多樣化的組合中進行實驗,這些任務包括語言生成(具有自動和人工評估)、語言理解、文本分類、問答、常識推理、長文本推理、結構化知識基礎和信息檢索。實驗結果表明,UL2 在絕大多數(shù)任務和環(huán)境下都達到了 SOTA。
最后,研究者使用 UL2 進行了零 / 少樣本實驗,并表明 UL2 在零樣本 SuperGLUE 上的性能優(yōu)于 GPT-3 175B。與 GLaM (Du et al., 2021)、PaLM (Chowdhery et al., 2022) 和 ST-MoE (Zoph et al., 2022) 等較新的 SOTA 模型相比,UL2 盡管僅在 C4 語料庫上進行了訓練,但在計算匹配環(huán)境下的性能仍然極具競爭力。
研究者深入分析了零樣本與微調性能之間的權衡,表明 UL2 在兩種學習范式上都是帕累托有效的。UL2 的性能是一個 LM adapted T5 XXL 模型的三倍,在相同的計算成本下可與 PaLM 和 LaMDA 媲美。
這篇論文的(并列)第一作者是谷歌 AI 高級研究科學家 Yi Tay 和谷歌大腦研究科學家 Mostafa Dehghani。
Yi Tay 2019 年在新加坡南洋理工大學拿到計算機科學博士學位。他是一位高產的論文作者,曾在 2018 年一年之內以第一作者身份發(fā)表了 14 篇領域內頂會論文。此外,他的論文也拿到過多個獎項,如 ICLR 2021 年杰出論文獎、WSDM 2021 年最佳論文獎(亞軍)和 WSDM 2020 年最佳論文獎(亞軍)。此外,他還曾擔任 EMNLP 和 NAACL 等頂級 NLP 會議的區(qū)域主席。

圖片


Mostafa Dehghani 在阿姆斯特丹大學拿到的博士學位,獲得過 ACM SIGIR ICTIR 2016 年最佳論文獎等獎項。他在谷歌主要研究基于注意力的視覺和語言模型,是熱門論文《AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE》的作者之一。

圖片


以下是論文細節(jié)。
UL2 詳解
用統(tǒng)一視角看預訓練任務
許多預訓練任務可以被簡單地表述為「輸入到目標(input-to-target)」型任務,其中輸入指的是模型所依賴的任何形式的記憶或上下文,而目標是模型的預期輸出。語言模型使用所有以前的時間步作為輸入來預測下一個 token,即目標。在 span corruption 中,模型利用來自過去和未來的所有未損壞的 token 作為預測 corrupted span(目標)的輸入。Prefix-LM 是使用過去的 token 作為輸入的語言模型,但它雙向使用輸入:這比普通語言模型中輸入的單向編碼提供了更強的建模能力。
從這個角度來看,我們可以將一個預訓練目標簡化為另一個目標。例如,在 span corruption 目標中,當 corrupted span(目標)等于整個序列時,該問題實際上就變成了一個語言建模問題??紤]到這一點,使用 span corruption,通過將 span 長度設置得很大,我們可以在局部區(qū)域中有效地模擬語言建模目標。
研究者們定義了一個符號,它涵蓋了本文中使用的所有不同的去噪任務。去噪任務的輸入和目標由 SPANCORRUPT 函數(shù)生成,該函數(shù)由三個值 (μ, r, n) 來參數(shù)化,其中 μ 是平均 span 長度,r 是 corruption rate,n 是 corrupted span 的數(shù)量。注意,n 可能是輸入長度 L 和 span 長度 μ 的函數(shù),如 L/μ,但在某些情況下,研究者使用 n 的固定值。給定輸入文本,SPANCORRUPT 將 corruption 引入從具有 u 均值的(正態(tài)或均勻)分布中提取的長度的 span。在 corruption 之后,輸入文本被饋送到去噪任務,corrupted span 被用作要恢復的目標。
舉個例子,用這個公式來構建一個類似于因果語言建模的目標,只需設置 (μ = L, r = 1.0, n = 1) ,即單個 span 的長度等于序列的長度。要表達一個類似于 Prefix LM 的目標,可以設置 (μ = L ? P, r = 1.0 ? P/L, n = 1) ,其中 P 是 prefix 的長度,附加的約束是單個 corrupted span 總是到達序列的末尾。
研究者注意到,這種 inputs-to-target 的公式既可以應用于編碼器 - ****模型,也可以應用于單棧 Transformer 模型(如****模型)。他們選擇了預測下一個目標 token 的模型,而不是就地預測的模型(例如 BERT 中的預測當前掩蔽 token),因為下一個目標公式更通用,并且可以包含更多的任務,而不是使用特殊的「CLS」token 和特定于任務的 projection head。
Mixture of Denoisers 

圖片


研究者認為,在預訓練期間,一個強大的通用模型必須去面對、解決不同的問題集。假設預訓練是使用自監(jiān)督完成的,研究者認為這種多樣性應該被注入到模型的目標中,否則模型可能會缺乏某種能力,比如連貫長文本生成能力。
基于此,以及當前的目標函數(shù)類型,他們定義了預訓練期間使用的三種主要范式:

  • R-Denoiser,regular denoising 是 Raffel et al. (2019) 引入的標準 span corruption,它使用 2 到 5 個 token 作為 span length,遮蔽了大約 15% 的輸入 token。這些 span 非常短,可能有助于知識獲取(而非學習生成流暢的文本)。


  • S-Denoiser,去噪的一種具體情況,在構建 inputs-to-targets 任務時遵守嚴格的順序,即 prefix 語言建模。為此,研究者只需將輸入序列劃分為兩個 token 子序列,分別作為上下文和目標,這樣目標就不依賴于未來的信息。這與標準 span corruption 不同,在標準 span corruption 中,可能存在位置比上下文 token 更早的目標 token。注意,與 Prefix-LM 設置類似,上下文(prefix)保留了一個雙向感受野。研究者注意到,具有非常短的記憶或沒有記憶的 S-Denoising 與標準的因果語言建模的精神是相似的。


  • X-Denoiser,去噪的一種 extreme 版本,模型必須恢復輸入的絕大部分。這模擬了模型需要借助有限信息記憶生成長目標的情況。為此,研究者選擇了包含積極去噪的例子,其中大約 50% 的輸入序列被遮蔽。這是通過增加 span 長度和 / 或 corruption 率來實現(xiàn)的。如果預訓練任務 span 長(如≥ 12 個 token)或 corruption 率高(如≥ 30%),就認為該任務是 extreme 的。X-denoising 的動機是作為常規(guī) span corruption 和類似目標的語言模型之間的插值而存在。


圖片


這組 denoiser 與先前使用的目標函數(shù)有很強的聯(lián)系:R-Denoising 是 T5 span corruption 目標,S-Denoising 與類 GPT 的因果語言模型相關,而 X-Denoising 可以將模型暴露給來自 T5 和因果 LM 的目標的組合。值得注意的是,X-denoiser 也被連接起來以提高樣本效率,因為在每個樣本中可以學習到更多的 token 來預測,這與 LM 的理念類似。研究者提出以統(tǒng)一的方式混合所有這些任務,并有一個混合的自監(jiān)督的目標。最終目標是混合 7 個去噪器,配置如下:

圖片


對于 X - 和 R-Denoiser,span 長度從均值為 μ 的正態(tài)分布中采樣。對于 S-denoiser,他們使用均勻分布,將 corrupted span 的數(shù)量固定為 1,并且具有額外的約束,即 corrupted span 應該在原始輸入文本的末尾結束,在 corrupted 部分之后不應該出現(xiàn)未被裁剪的 token。這大致相當于 seq2seq 去噪或 Prefix LM 預訓練目標。
由于 LM 是 Prefix-LM 的一種特殊情況,研究者認為沒有必要在混合中包含一個偶然的 LM 任務。所有任務在混合中具有大致相同的參與度。研究者還探索了一種替代方案,他們將混合配置中 S-denoiser 的分量增加到 50%,其余份額由其他 denoiser 共享。
最后,「混合」這一動作使得 Mixture-of-Denoisers 具有非常強的通用性。單獨來看,一些 denoiser 類型表現(xiàn)不佳。例如,最初的 T5 論文探索了一個具有 50% corruption rate 的選項(X-denoising),但發(fā)現(xiàn)效果不佳。
UL2 的 Mixture-of-Denoisers 的實現(xiàn)非常簡單,使用 seqio3 之類的庫很容易實現(xiàn)。
模式切換
研究者引入了通過模式切換進行范式轉換的概念。在預訓練期間,他們?yōu)槟P吞峁┝艘粋€額外的范式 token,即 {[R],[S],[X]},這有助于模型切換到更適合給定任務的模式。對于微調和下游 few-shot 學習,為了觸發(fā)模型學習更好的解決方案,研究者還添加了一個關于下游任務的設置和要求的范式 token。模式切換實際上是將下游行為綁定到上游訓練中使用的模式之一上。
消融實驗結果
表 2 顯示了在所有基準測試任務和數(shù)據集上的原始結果。

圖片


為了方便不同設置之間的比較,研究者還給出了 UL2 與已建立的基線(如 T5 和 GPT 模型)的相對比較,如表 3 和表 4 所示。

圖片


圖片


擴展到 200 億參數(shù)之后的結果
圖 8 顯示了 UL20B 在不同任務中與之前 SOTA 的對比結果。

圖片


圖片


更多細節(jié)請參見原論文。


*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。



關鍵詞: AI

相關推薦

技術專區(qū)

關閉