博客專欄

EEPW首頁 > 博客 > 擁有100萬億參數(shù)的GPT-4,有何值得期待?

擁有100萬億參數(shù)的GPT-4,有何值得期待?

發(fā)布人:大數(shù)據(jù)文摘 時間:2021-09-20 來源:工程師 發(fā)布文章

大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自數(shù)據(jù)實戰(zhàn)派

作者:Alberto Romero

譯者:青蘋果

為了應對實現(xiàn)通用人工智能(AGI, Artificial General Intelligence)的挑戰(zhàn),OpenAI 應運而生。通俗來說,這就是一種能夠完成人類所能完成的任何事情的 AI。

毫無疑問,這樣的技術(shù)必將改變我們所認知的世界。它就如一把雙刃劍,如果使用得當,可使所有人受益;倘若落入壞人之手,也會變成最具毀滅性的武器。這就是 OpenAI 接手這項任務的原因,以確保每個人都能平等受益:“我們的目標是以最有可能造福全人類的方式推進數(shù)字智能?!?/p>

然而,這個問題的嚴重性使得它可以說是人類涉足的最大的科學事業(yè)。盡管計算機科學(CS, Computer Science)和 AI 有了長足的進步,但沒有人知道如何解決這個問題,以及它何時會成為現(xiàn)實。

有些人認為,深度學習不足以實現(xiàn) AGI。伯克利大學的計算機科學教授、AI 先驅(qū) Stuart Russell 認為:

“專注于原始計算能力完全沒有切中要點……我們不知道如何讓機器實現(xiàn)真正的智能——即使它有宇宙那么大?!?/p>

相比之下,OpenAI 相信,以大型數(shù)據(jù)集為基礎(chǔ)并在大型計算機上訓練的大型神經(jīng)網(wǎng)絡是實現(xiàn) AGI 的最佳途徑。OpenAI 的首席技術(shù)官格雷格·布羅克曼(Greg Brockman)在接受《金融時報》采訪時表示:“我們認為,誰擁有最大型的計算機,誰就將獲得最大的收益。”

顯然,他們也是這樣做的:開始訓練越來越大的模型,以喚醒深度學習中隱藏的力量。朝此方向邁出的第一個非微妙步驟是 GPT 和 GPT-2 的發(fā)布。這些大型語言模型將為后續(xù)的 “新秀”模型-GPT-3 奠定基礎(chǔ)。一個擁有 1750 億參數(shù),比 GPT-2 大 100 倍的語言模型。

可見 GPT-3 是當時最大的神經(jīng)網(wǎng)絡,并且就目前來說,仍是最大的密集神經(jīng)網(wǎng)絡。它的語言專長以及數(shù)不勝數(shù)的能力令多少人為之驚嘆。盡管一些專家仍持懷疑態(tài)度,但大型語言模型已經(jīng)讓人感到新奇。

對于 OpenAI 研究人員來說,這是一個巨大的飛躍并且增強了他們的信念感,也進一步讓我們相信 AGI 是深度學習的一個值得關(guān)注的問題。

三位一體——算法、數(shù)據(jù)和計算

OpenAI 相信擴展假說( the scaling hypothesis)。

給定一個可擴展的算法,即本例中的 Transformer——GPT 系列背后的基本架構(gòu)——可能有一條通向 AGI 的直接路徑,該路徑可以基于該算法訓練越來越大的模型。

但大型模型只是 AGI 難題的一部分。訓練它們需要大量的數(shù)據(jù)集和大量的計算能力。

當機器學習社區(qū)開始揭示無監(jiān)督學習的潛力時,數(shù)據(jù)不再是瓶頸。這與生成語言模型和小樣本任務(few-shot task)遷移一起解決了 OpenAI 的“大數(shù)據(jù)集”問題。

他們只需要使用大量的計算資源來訓練和部署他們的模型即可很好地運行。這也就是他們在 2019 年與微軟合作的原因。他們授權(quán)了這家大型科技公司,這樣他們就可以在商業(yè)上使用 OpenAI 的一些模型,以換取對其云計算基礎(chǔ)設施和所需的強大 GPUs 的訪問權(quán)。

但是 GPUs 并非是專為訓練神經(jīng)網(wǎng)絡而構(gòu)建的。游戲行業(yè)開發(fā)這些芯片用于圖形處理,而 AI 行業(yè)只是利用了它對并行計算的適用性。OpenAI 想要最好的模型和最好的數(shù)據(jù)集,他們也想要最佳的計算機芯片。然而,GPUs 還不夠。

許多公司也意識到了這一點,并開始在不損失效率和能力的情況下,構(gòu)建訓練神經(jīng)網(wǎng)絡的內(nèi)部專用芯片。然而,像 OpenAI 這樣的純軟件公司很難將硬件設計和制造進行集成。這恰好解釋了他們?yōu)槭裁床扇×肆硪粭l路線:使用第三方 AI 專用芯片。

這時到 CerebrasSystems 登場了。這家致力于研發(fā)用于深度學習的芯片產(chǎn)品的公司早在 2019 年便制造了有史以來最大的用于訓練大型神經(jīng)網(wǎng)絡的芯片。現(xiàn)在他們“重出江湖”,OpenAI 將很好地與其進行合作,開展新的研究。

WSE-2 芯片和 GPT-4 模型

兩周前,Wired 雜志發(fā)表了一篇文章,披露了兩條重要消息。

首先,Cerebras 再次制造了市場上最大的芯片- WSE-2(Wafer Scale Engine Two)。它大約 22 厘米,有 2.6 萬億晶體管。相比之下,特斯拉(Tesla)全新的訓練芯片也僅有 1.25 萬億晶體管。

Cerebras 找到了一種有效壓縮計算能力的方法,因此 WSE-2 有 85 萬個核心(計算單元),而典型的 GPUs 只有幾百個。他們還用一種新穎的冷卻系統(tǒng)解決了散熱問題,并創(chuàng)設了一種高效的 I/O 數(shù)據(jù)流。

像 WSE-2 這樣的超專業(yè)、超昂貴、超強大的芯片用途并不多。訓練大型神經(jīng)網(wǎng)絡就是其中之一。所以 Cerebras 和 OpenAI 進行了對話。

第二條消息是,Cerebras 首席執(zhí)行官安德魯·費爾德曼(Andrew Feldman)對 Wired 雜志表示:“從與 OpenAI 的對話來看,GPT-4 將會有大約 100 萬億個參數(shù)?!劣诎l(fā)布,可能還需要幾年來準備?!?/p>

從 GPT-3 開始,人們就對 OpenAI 及其后續(xù)版本充滿了期待?,F(xiàn)在我們知道它會在幾年內(nèi)問世,而且規(guī)模會非常大。它的尺寸將超過 GPT-3 的 500 倍。是的,你沒看錯:500 倍!

GPT-4 將比去年震驚世界的語言模型大 500 倍。

GPT-4 可以帶給我們什么期待?

100 萬億的參數(shù)究竟有多大呢?

為了理解這個數(shù)字概念,我們用人腦與其展開比較。一般情況下,大腦約有 800-1000 億個神經(jīng)元(GPT-3 的數(shù)量級)和大約 100 萬億個突觸。

GPT-4 將擁有與大腦的突觸一樣多的參數(shù)。

這種神經(jīng)網(wǎng)絡的龐大規(guī)??赡軒砦覀冎荒芟胂蟮?GPT-3 的質(zhì)的飛躍。我們甚至可能無法用當前的提示方法測試系統(tǒng)的全部潛力。

然而,將人工神經(jīng)網(wǎng)絡與大腦進行比較是一件棘手的事情。這種比較看似公平,但那只是因為我們假設至少在一定程度上,人工神經(jīng)元是松散地基于生物神經(jīng)元的。最近發(fā)表在 Neuron 雜志上的一項研究表明并非如此。他們發(fā)現(xiàn),至少需要一個 5 層神經(jīng)網(wǎng)絡來模擬單個生物神經(jīng)元的行為。換句話說,每個生物神經(jīng)元大約需要 1000 個人工神經(jīng)元才可以模擬。

由此看來,比較結(jié)果是,我們的大腦更勝一籌。即使 GPT-4 不如我們的大腦強大,它也肯定會帶來一些驚喜。與 GPT-3 不同,它可能不僅僅是一個語言模型。OpenAI 首席科學家 Ilya Sutskever 在 2020 年 12 月撰寫多模態(tài)的相關(guān)文章時暗示了這一點:

“到 2021 年,語言模型將開始認識視覺世界。當然,文字本身即可表達關(guān)于這個世界的大量信息,但畢竟是不完整的,因為我們也生活在視覺世界之中。”

我們已經(jīng)在 DALL·E 中看到了一些,它是 GPT-3 的一個較小版本(120 億參數(shù)),專門針對文本-圖像對進行訓練。OpenAI 當時表示,“通過語言描述視覺概念現(xiàn)在已經(jīng)觸手可及?!?/p>

OpenAI 一直在不停地開發(fā) GPT-3 的隱藏能力。DALL·E 是 GPT-3 的一個特例,很像 Codex。但它們并不是絕對的改進,更像是一種特殊情況。而 GPT-4 具備更多的功能。舉例來說,將 DALL·E(文本圖像)和 Codex(編碼)等專業(yè)系統(tǒng)的深度與 GPT-3(通用語言)等通用系統(tǒng)的寬度相結(jié)合。

那么其他類人特征呢,比如推理或常識?在這方面,Sam Altman 表示他們也不確定,但仍然保持“樂觀”心態(tài)。

總之,目前看來,問題很多但答案卻很少。沒有人知道 AGI 能否成為可能,也沒有人知道如何構(gòu)建,亦沒有人知道更大的神經(jīng)網(wǎng)絡是否會越來越向其靠近。但不可否認的一點是:GPT-4 值得我們關(guān)注,必定不負期待。

原文:

GPT-4 Will Have 100 Trillion Parameters — 500x the Size of GPT-3.

*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉