博客專欄

EEPW首頁 > 博客 > 直接壓縮一切!OpenAI首席科學家Ilya Sutskever這么看無監(jiān)督學習(3)

直接壓縮一切!OpenAI首席科學家Ilya Sutskever這么看無監(jiān)督學習(3)

發(fā)布人:機器之心 時間:2023-08-20 來源:工程師 發(fā)布文章

直接壓縮一切!


Sutskever 又進一步提到「直接壓縮一切」也是可行的。


圖片


條件 Kolmogorov 復雜度 K (Y|X) 在機器學習語境中是不自然的,因為它是基于 X 來壓縮 Y,而至少就目前而言,以大型數(shù)據(jù)集為條件還是基本無法辦到的。我們可以擬合大型數(shù)據(jù)集,但很難以其為條件。


圖片


而上式是表示:如果你想要對你監(jiān)督的東西 Y 進行預測,使用壓縮 X 和 Y 連接數(shù)據(jù)的常規(guī) Kolmogorov 壓縮器的表現(xiàn)與條件壓縮器一樣好。當然實際細節(jié)還有更多微妙之處,但這其實就是表示我們可以使用常規(guī) Kolmogorov 壓縮器來求解無監(jiān)督學習 —— 就是將你的所有數(shù)據(jù)連接起來,然后執(zhí)行壓縮,這樣就能在你關心的監(jiān)督任務上得到很好的結果。


對此的證明要更復雜一些,這里就不再繼續(xù)深入了。


圖片


重點的結論是常規(guī) Kolmogorov 壓縮(無需以某個數(shù)據(jù)集為條件)是「以最好的可能方式使用」無標注數(shù)據(jù)。這就是無監(jiān)督學習的解。


聯(lián)合壓縮就是最大似然


Sutskever 在演講中談到的最后一點是:這種聯(lián)合壓縮就是最大似然,只要沒有過擬合。


圖片


如果你有一個數(shù)據(jù)集,那么給定參數(shù)的似然之和就是壓縮該數(shù)據(jù)集的成本。你還需要支付壓縮參數(shù)的成本。而如果你想壓縮兩個數(shù)據(jù)集,也沒有問題,只需向你的數(shù)據(jù)集添加數(shù)據(jù)點即可,也就是向上面的求和運算 sum 添加更多項。


所以通過連接數(shù)據(jù)來進行聯(lián)合壓縮在機器學習語境中是非常自然的做法。相比而言,通過條件 Kolmogorov 復雜度就麻煩多了。


我們甚至可以將其用于解釋神經(jīng)網(wǎng)絡的工作方式。我們可以將用于大型神經(jīng)網(wǎng)絡的 SGD 用作我們的大型程序搜索器。神經(jīng)網(wǎng)絡越大,就能更好地近似常規(guī) Kolmogorov 壓縮器。Sutskever 評價說:「也許這就是我們喜歡大型神經(jīng)網(wǎng)絡的原因,因為我們可以以此近似不可實現(xiàn)的無遺憾常規(guī) Kolmogorov 壓縮器思想。隨著我們訓練的神經(jīng)網(wǎng)絡越來越大,遺憾會越來越低?!?/span>


此理論也適用于 GPT 模型嗎?


Sutskever 對此的答案是肯定的,不過解釋 GPT 模型的行為時,無需引述有關壓縮或監(jiān)督學習的說明,你可以說 GPT 的「理論」可以通過對文本的條件分布進行推理而得到。


圖片


那么,我們能找到其它的直接驗證方法來驗證這一理論嗎?我們能用視覺等其它領域來解釋嗎?如果我們在像素數(shù)據(jù)上這樣操作,我們能得到優(yōu)良的無監(jiān)督學習嗎?


Sutskever 表示他們已經(jīng)在 2020 年做過這樣的研究,即 iGPT。當然,這主要是一個驗證概念的研究,離實踐應用還有很大距離,詳見論文《Generative Pretraining from Pixels》。


圖片


該論文表明:如果你能做出很棒的下一步預測器,那么就能收獲很棒的無監(jiān)督學習效果。這篇論文在圖像領域證明了該論斷。


簡單來說,先將圖片轉換成像素序列,每個像素都有一個離散的密度值。要做的就是使用同樣的 Transformer 來預測下一個像素。這不同于 BERT,就是預測下一個 token,因為這是最大化壓縮的似然。


下面來看看結果:


圖片


如圖所示,這是不同大小的 iGPT 模型在 CIFAR-10 上的線性探查準確度,也就是在無監(jiān)督學習的像素預測任務上的下一步預測準確度??梢钥闯?,預測下一個像素就和預測下一個詞一樣有效。當模型規(guī)模更大時,無監(jiān)督學習的效果也更好。


他們進行了實驗研究,結果發(fā)現(xiàn)在 ImageNet 上,經(jīng)過多方面擴展的 iGPT 的表現(xiàn)可以接近當今最佳的監(jiān)督學習,但依然還有些差距。


圖片


不過 Sutskever 認為這就是個計算問題,因為 SimCLR 等監(jiān)督學習方式使用的是高分辨率的大圖,他們?yōu)榫扌?Transformer(68 億參數(shù))提供的是 64×64 的小圖。這就像是基于一個大型數(shù)據(jù)集以無監(jiān)督的方式預測下一個像素,然后在 ImageNet 上擬合線性探針,得到很好的結果。


而在 CIFAR-10 上,有 13.6 億參數(shù)的 iGPT-L 取得了準確度 99% 的好成績,如下圖所示。


圖片


線性表征


演講最后,Sutskever 表示他想談談線性表征。


圖片


他說:「我喜歡壓縮理論,因為在此之前還沒有以嚴格方式思考無監(jiān)督學習的方法?!苟F(xiàn)在我們能在一定程度上做到這一點了。但壓縮理論不能直接解釋為什么表征是線性可分的,也無法解釋應該有線性探針。線性表征是無處不在的,它們形成的原因必定很深刻。Sutskever 相信我們能在未來清晰地闡釋它。


他覺得另一個有趣的地方是自回歸模型在線性表征方面的表現(xiàn)優(yōu)于 BERT。但目前人們還不清楚其中的緣由。


不過 Sutskever 倒是給出了自己的推測:在根據(jù)之前所有的像素預測下一個像素時,模型需要觀察數(shù)據(jù)的長程結構。BERT 在處理向量時會丟棄一些像素 token,通過兼顧地考慮一點過去和一點未來,模型實際上能得到相當好的預測結果。這樣一來就去除了所有困難任務,任務的難度就下降了很多。預測下一個像素中最困難的預測任務比 BERT 預測情況中最困難的預測任務難多了。


*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。



關鍵詞: AI

相關推薦

技術專區(qū)

關閉