Orca LLM:模擬 ChatGPT 的推理過程
推薦:使用NSDT場景編輯器快速搭建3D應(yīng)用場景介紹
在大型語言模型(LLM)領(lǐng)域,人們一直在追求在不影響其效率的情況下增強小型模型的功能。傳統(tǒng)的方法是使用模仿學習,其中較小的模型從大型基礎(chǔ)模型(LFM)生成的輸出中學習。然而,這種方法受到一些挑戰(zhàn)的損害,包括來自淺層LFM輸出的有限模仿信號,小規(guī)模的同質(zhì)訓練數(shù)據(jù)以及缺乏嚴格的評估。這通常會導致較小的模型模仿LFM的風格,而不是推理過程。
論文Orca:從GPT-4的復雜解釋痕跡中逐步學習介紹了Orca,這是一個13億參數(shù)模型,旨在模仿GPT-4等大型基礎(chǔ)模型(LFM)的推理過程。與傳統(tǒng)的大型語言模型(LLM)不同,Orca采用獨特的培訓方法,將漸進式學習和教師協(xié)助相結(jié)合,以克服較小的學生模型與較大的學生模型之間的能力差距。
培訓方法
逆戟鯨的訓練過程包括兩個階段。
在第一階段,逆戟鯨接受 FLAN-5M 訓練,其中包括 ChatGPT 增強。這個中級助教有助于彌合 Orca 和 GPT-4 之間的容量差距,后者的參數(shù)大小要大得多。通過利用 ChatGPT 的功能,Orca 受益于改進的模仿學習性能。
在第二階段,逆戟鯨接受 FLAN-1M 的訓練,其中包括 GPT-4 增強。這種漸進式學習方法遵循課程學習范式,學生模式從更簡單的例子中學習,然后再處理更具挑戰(zhàn)性的例子。通過逐漸讓逆戟鯨接觸越來越復雜的推理和逐步解釋,該模型增強了其推理能力和模仿能力。
優(yōu)勢和貢獻
與傳統(tǒng)的LLM相比,Orca的培訓方法具有幾個優(yōu)勢。
首先,它通過利用中級教師模型解決了能力差距問題,使Orca能夠從更有能力的來源學習。這種方法已被證明可以提高較小學生模型的模仿學習性能。
其次,Orca訓練的漸進式學習方面使模型能夠逐步建立其知識。通過從更簡單的例子開始,逐漸引入更復雜的例子,Orca為推理和解釋的生成奠定了更堅實的基礎(chǔ)。
此外,Orca模仿GPT-4等LFM的推理過程的能力為提高各種任務(wù)的性能開辟了可能性。通過利用 GPT-4 的解釋軌跡和分步思維過程提供的豐富信號,Orca 獲得了寶貴的見解并提高了自己的能力。
性能基準Orca在復雜的零鏡頭推理基準測試中表現(xiàn)出色。它的性能優(yōu)于傳統(tǒng)的最先進的指令調(diào)整模型,如Vicuna-13B,在Big-Bench Hard(BBH)等基準上超過100%,在AGIEval上超過42%。此外,Orca 在 BBH 基準測試中取得了與 ChatGPT 相同的分數(shù),并在 SAT、LSAT、GRE 和 GMAT 等專業(yè)和學術(shù)考試中表現(xiàn)出有競爭力的表現(xiàn)??紤]到這些是沒有思維鏈的零鏡頭設(shè)置,這尤其令人印象深刻,而且 Orca 在落后于 GPT-4 的同時仍然具有競爭力。
影響和未來方向逆戟鯨的發(fā)展代表了LLM領(lǐng)域的重大進步。通過從豐富的信號中學習并模仿LFM的推理過程,Orca能夠以高度的準確性執(zhí)行復雜的推理任務(wù)。這具有廣泛的影響,特別是在需要復雜推理和解決問題的領(lǐng)域。
此外,這項研究表明,從分步AI模型解釋中學習是提高模型能力的一個有希望的方向。這為法學碩士領(lǐng)域的研究和開發(fā)開辟了新的途徑。
結(jié)論
Orca提出了一種訓練大型語言模型的新方法,將漸進式學習和教師協(xié)助相結(jié)合,以增強模仿學習。通過利用中級教師模型,逐步將學生模型暴露給更復雜的例子,Orca克服了能力差距,提高了推理和解釋生成能力。該論文的發(fā)現(xiàn)有助于模仿學習技術(shù)的進步,并對未來語言模型的發(fā)展產(chǎn)生影響。
原文鏈接:Orca LLM:模擬 ChatGPT 的推理過程 (mvrlink.com)
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。