博客專欄

EEPW首頁 > 博客 > 更強(qiáng)的Llama 2開源,可直接商用:一夜之間,大模型格局變了(2)

更強(qiáng)的Llama 2開源,可直接商用:一夜之間,大模型格局變了(2)

發(fā)布人:機(jī)器之心 時(shí)間:2023-07-19 來源:工程師 發(fā)布文章

微調(diào)


Llama 2-Chat 是數(shù)個(gè)月研究和迭代應(yīng)用對齊技術(shù)(包括指令調(diào)整和 RLHF)的成果,需要大量的計(jì)算和注釋資源。


監(jiān)督微調(diào) (SFT)


第三方監(jiān)督微調(diào)數(shù)據(jù)可從許多不同來源獲得,但 Meta 發(fā)現(xiàn)其中許多數(shù)據(jù)的多樣性和質(zhì)量都不夠高,尤其是在使 LLM 與對話式指令保持一致方面。因此,他們首先重點(diǎn)收集了幾千個(gè)高質(zhì)量 SFT 數(shù)據(jù)示例,如下表 5 所示。


圖片


在微調(diào)過程中,每個(gè)樣本都包括一個(gè)提示和一個(gè)回答。為確保模型序列長度得到正確填充,Meta 將訓(xùn)練集中的所有提示和答案連接起來。他們使用一個(gè)特殊的 token 來分隔提示和答案片段,利用自回歸目標(biāo),將來自用戶提示的 token 損失歸零,因此只對答案 token 進(jìn)行反向傳播。最后對模型進(jìn)行了 2 次微調(diào)。


RLHF


RLHF 是一種模型訓(xùn)練程序,適用于經(jīng)過微調(diào)的語言模型,以進(jìn)一步使模型行為與人類偏好和指令遵循相一致。Meta 收集了代表了人類偏好經(jīng)驗(yàn)采樣的數(shù)據(jù),人類注釋者可據(jù)此選擇他們更喜歡的兩種模型輸出。這種人類反饋隨后被用于訓(xùn)練獎(jiǎng)勵(lì)模型,該模型可學(xué)習(xí)人類注釋者的偏好模式,然后自動(dòng)做出偏好決定。


下表 6 報(bào)告了 Meta 長期以來收集到的獎(jiǎng)勵(lì)建模數(shù)據(jù)的統(tǒng)計(jì)結(jié)果,并將其與多個(gè)開源偏好數(shù)據(jù)集進(jìn)行了對比。他們收集了超過 100 萬個(gè)基于人類應(yīng)用指定準(zhǔn)則的二元比較的大型數(shù)據(jù)集,也就是元獎(jiǎng)賞建模數(shù)據(jù)。


請注意,提示和答案中的標(biāo)記數(shù)因文本領(lǐng)域而異。摘要和在線論壇數(shù)據(jù)的提示通常較長,而對話式的提示通常較短。與現(xiàn)有的開源數(shù)據(jù)集相比,本文的偏好數(shù)據(jù)具有更多的對話回合,平均長度也更長。


圖片


獎(jiǎng)勵(lì)模型將模型響應(yīng)及其相應(yīng)的提示(包括前一輪的上下文)作為輸入,并輸出一個(gè)標(biāo)量分?jǐn)?shù)來表示模型生成的質(zhì)量(例如有用性和安全性)。利用這種作為獎(jiǎng)勵(lì)的響應(yīng)得分,Meta 在 RLHF 期間優(yōu)化了 Llama 2-Chat,以更好地與人類偏好保持一致,并提高有用性和安全性。


在每一批用于獎(jiǎng)勵(lì)建模的人類偏好注釋中,Meta 都拿出 1000 個(gè)樣本作為測試集來評估模型,并將相應(yīng)測試集的所有提示的集合分別稱為「元有用性」和「元安全性」。


下表 7 中報(bào)告了準(zhǔn)確率結(jié)果。不出所料,Meta 自己的獎(jiǎng)勵(lì)模型在基于 Llama 2-Chat 收集的內(nèi)部測試集上表現(xiàn)最佳,其中「有用性」獎(jiǎng)勵(lì)模型在「元有用性」測試集上表現(xiàn)最佳,同樣,「安全性」獎(jiǎng)勵(lì)模型在「元安全性」測試集上表現(xiàn)最佳。


總體而言,Meta 的獎(jiǎng)勵(lì)模型優(yōu)于包括 GPT-4 在內(nèi)的所有基線模型。有趣的是,盡管 GPT-4 沒有經(jīng)過直接訓(xùn)練,也沒有專門針對這一獎(jiǎng)勵(lì)建模任務(wù),但它的表現(xiàn)卻優(yōu)于其他非元獎(jiǎng)勵(lì)模型。


圖片


縮放趨勢。Meta 研究了獎(jiǎng)勵(lì)模型在數(shù)據(jù)和模型大小方面的縮放趨勢,在每周收集的獎(jiǎng)勵(lì)模型數(shù)據(jù)量不斷增加的情況下,對不同的模型大小進(jìn)行了微調(diào)。下圖 6 報(bào)告了這些趨勢,顯示了預(yù)期的結(jié)果,即在類似的數(shù)據(jù)量下,更大的模型能獲得更高的性能。


圖片


隨著收到更多批次的人類偏好數(shù)據(jù)注釋,能夠訓(xùn)練出更好的獎(jiǎng)勵(lì)模型并收集更多的提示。因此,Meta 訓(xùn)練了連續(xù)版本的 RLHF 模型,在此稱為 RLHF-V1、...... , RLHF-V5。


此處使用兩種主要算法對 RLHF 進(jìn)行了微調(diào):


  • 近端策略優(yōu)化 (PPO);

  • Rejection 采樣微調(diào)。


RLHF 結(jié)果


首先是基于模型的評估結(jié)果。下圖 11 報(bào)告了不同 SFT 和 RLHF 版本在安全性和有用性方面的進(jìn)展,其中通過 Meta 內(nèi)部的安全性和有用性獎(jiǎng)勵(lì)模型進(jìn)行評估。


圖片


再來看人類評估結(jié)果。如下圖 12 所示,Llama 2-Chat 模型在單輪和多輪提示方面均顯著優(yōu)于開源模型。特別地,Llama 2-Chat 7B 在 60% 的提示上優(yōu)于 MPT-7B-chat,Llama 2-Chat 34B 相對于同等大小的 Vicuna-33B 和 Falcon 40B,表現(xiàn)出了 75% 以上的整體勝率。


圖片


在這里,Meta 也指出了人工評估的一些局限性。


雖然結(jié)果表明 Llama 2-Chat 在人工評估方面與 ChatGPT 不相上下,但必須指出的是,人工評估存在一些局限性。


  • 按照學(xué)術(shù)和研究標(biāo)準(zhǔn),本文擁有一個(gè) 4k 提示的大型提示集。但是,這并不包括這些模型在現(xiàn)實(shí)世界中的使用情況,而現(xiàn)實(shí)世界中的使用情況可能要多得多。

  • 提示語的多樣性可能是影響結(jié)果的另一個(gè)因素,例如本文提示集不包括任何編碼或推理相關(guān)的提示。

  • 本文只評估了多輪對話的最終生成。更有趣的評估方法可能是要求模型完成一項(xiàng)任務(wù),并對模型在多輪對話中的整體體驗(yàn)進(jìn)行評分。

  • 人類對生成模型的評估本身就具有主觀性和噪聲性。因此,使用不同的提示集或不同的指令進(jìn)行評估可能會(huì)產(chǎn)生不同的結(jié)果。


安全性


該研究使用三個(gè)常用基準(zhǔn)評估了 Llama 2 的安全性,針對三個(gè)關(guān)鍵維度:


  • 真實(shí)性,指語言模型是否會(huì)產(chǎn)生錯(cuò)誤信息,采用 TruthfulQA 基準(zhǔn);

  • 毒性,指語言模型是否會(huì)產(chǎn)生「有毒」、粗魯、有害的內(nèi)容,采用 ToxiGen 基準(zhǔn);

  • 偏見,指語言模型是否會(huì)產(chǎn)生存在偏見的內(nèi)容,采用 BOLD 基準(zhǔn)。


預(yù)訓(xùn)練的安全性


首先,預(yù)訓(xùn)練數(shù)據(jù)對模型來說非常重要。Meta 進(jìn)行實(shí)驗(yàn)評估了預(yù)訓(xùn)練數(shù)據(jù)的安全性。


該研究使用在 ToxiGen 數(shù)據(jù)集上微調(diào)的 HateBERT 分類器來測量預(yù)訓(xùn)練語料庫英文數(shù)據(jù)的「毒性」,具體結(jié)果如下圖 13 所示:


圖片


為了分析偏見方面的問題,該研究統(tǒng)計(jì)分析了預(yù)訓(xùn)練語料庫中的代詞和身份相關(guān)術(shù)語及其占比,如下表 9 所示:


圖片


此外,在語言分布方面,Llama 2 語料庫涵蓋的語種及其占比如下表 10 所示:


圖片


安全微調(diào)


具體來說,Meta 在安全微調(diào)中使用了以下技術(shù):1、監(jiān)督安全微調(diào);2、安全 RLHF;3、安全上下文蒸餾。


Meta 在 Llama 2-Chat 的開發(fā)初期就觀察到,它能夠在有監(jiān)督的微調(diào)過程中從安全演示中有所總結(jié)。模型很快就學(xué)會(huì)了撰寫詳細(xì)的安全回復(fù)、解決安全問題、解釋話題可能敏感的原因并提供更多有用信息。特別是,當(dāng)模型輸出安全回復(fù)時(shí),它們往往比普通注釋者寫得更詳細(xì)。因此,在只收集了幾千個(gè)有監(jiān)督的示范后,Meta 就完全改用 RLHF 來教模型如何寫出更細(xì)致入微的回復(fù)。使用 RLHF 進(jìn)行全面調(diào)整的另一個(gè)好處是,它可以使模型對越獄嘗試更加魯棒。


圖片


Meta 首先通過收集人類對安全性的偏好數(shù)據(jù)來進(jìn)行 RLHF,其中注釋者編寫他們認(rèn)為會(huì)引發(fā)不安全行為的 prompt,然后將多個(gè)模型響應(yīng)與 prompt 進(jìn)行比較,并根據(jù)一系列指南選擇最安全的響應(yīng)。接著使用人類偏好數(shù)據(jù)來訓(xùn)練安全獎(jiǎng)勵(lì)模型,并在 RLHF 階段重用對抗性 prompt 以從模型中進(jìn)行采樣。


如下圖 15 所示,Meta 使用平均獎(jiǎng)勵(lì)模型得分作為模型在安全性和有用性方面的表現(xiàn)結(jié)果。Meta 觀察到,當(dāng)他們增加安全數(shù)據(jù)的比例時(shí),模型處理風(fēng)險(xiǎn)和對抗性 prompt 的性能顯著提高。


圖片


最后,Meta 通過上下文蒸餾完善了 RLHF 流程。這涉及到通過在 prompt 前加上安全前置 prompt 來生成更安全的模型響應(yīng),例如「你是一個(gè)安全且負(fù)責(zé)任的助手」,然后在沒有前置 prompt 的情況下根據(jù)更安全的響應(yīng)微調(diào)模型,這本質(zhì)上是提取了安全前置 prompt(上下文)進(jìn)入模型。


Meta 使用了有針對性的方法,允許安全獎(jiǎng)勵(lì)模型選擇是否對每個(gè)樣本使用上下文蒸餾。


圖片


下圖 17 展示了各種 LLM 的總體違規(guī)百分比和安全評級。


圖片


下圖 18 展示了單輪和多輪對話的違規(guī)百分比??缒P偷囊粋€(gè)趨勢是,多輪對話更容易引發(fā)不安全的響應(yīng)。也就是說,與基線相比,Llama 2-Chat 仍然表現(xiàn)良好,尤其是在多輪對話中。


圖片


下圖 19 顯示了不同 LLM 在不同類別中安全違規(guī)百分比。


圖片


圖片


參考鏈接:https://ai.meta.com/llama/


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉