卷到自己?繼 Imagen 之后,推出200 億文本生成的圖像模型驚呆網(wǎng)友!
這些模型可以通過簡單的文本提示生成高質(zhì)量的照片級真實(shí)感圖像。在 Google 研究院科學(xué)家和工程師一直在探索使用各種 AI 技術(shù)進(jìn)行文本到圖像的生成。經(jīng)過大量測試,最近宣布了兩種新的文本到圖像模型 - Imagen 和 Parti。兩者都能夠生成逼真的圖像,但使用不同的方法。
文本到圖像模型的工作原理
使用文本到圖像模型,人們提供文本描述,模型生成與描述盡可能匹配的圖像。像“一個蘋果”或“一只坐在沙發(fā)上的貓”這樣簡單的描述,也可以是更復(fù)雜的細(xì)節(jié),互動和描述性指標(biāo),比如“一個可愛的樹懶拿著一個小寶箱。胸口發(fā)出明亮的金色光芒。在過去幾年中,ML 模型已經(jīng)在具有相應(yīng)文本描述的大型圖像數(shù)據(jù)集上進(jìn)行訓(xùn)練,從而產(chǎn)生了更高質(zhì)量的圖像和更廣泛的描述。這引發(fā)了這一領(lǐng)域的重大突破,包括 Open AI 的 DALL-E 2。
如今,文本到圖像生成模式風(fēng)靡一時,但谷歌公司最近密集的一系列新發(fā)布,卻讓大眾有些出乎意料。5 月底谷歌剛剛推出 Imagen,它結(jié)合了 Transformer 語言模型和高保真擴(kuò)散模型的強(qiáng)大功能,在文本到圖像的合成中提供前所未有的逼真度和語言理解能力。與僅使用圖像 - 文本數(shù)據(jù)進(jìn)行模型訓(xùn)練的先前工作相比,Imagen 的關(guān)鍵突破在于“谷歌的研究者發(fā)現(xiàn)在純文本語料庫上預(yù)訓(xùn)練的大型 LM 的文本嵌入對文本到圖像的合成顯著有效。”Imagen 的文本到圖像生成可謂天馬行空,能生成多種奇幻卻逼真的有趣圖像。在 Imagen 發(fā)布之后,他們進(jìn)行了新的研究,決定展示另一個模型構(gòu)建來完成同樣的任務(wù)。這一最新模型被命名為Parti(Pathways Autoregressive Text-to-Image)。雖然 Imagen 和 DALL· E2 是一種擴(kuò)散模型,但 Parti 遵循 DALL· E 的足跡作為自回歸模型。無論其架構(gòu)和培訓(xùn)方法如何,最終用途都是一樣的,這些模型(包括 Parti)將根據(jù)用戶的文本輸入生成細(xì)致的圖像。Imagen 的圖像生成具有與 Open AI 的DALL-E 2 相似的架構(gòu),但輸入依據(jù)的是大型 AI 語言模型——由于具有更高的語言理解能力,因此可以從文本描述獲得更好的圖像生成結(jié)果。新的 AI 模型 Parti 嘗試使用一種更接近大型語言模型功能的替代架構(gòu),這些語言模型能根據(jù)之前的單詞和句子或段落的上下文預(yù)測合適的新詞。Parti 將這一原則應(yīng)用于圖像,并取得了成功。Parti 表明,與大型語言模型一樣,圖像 AI 通過更全面的訓(xùn)練和更多的參數(shù)獲得了明顯更好的結(jié)果。它還可以將長而復(fù)雜的文本輸入準(zhǔn)確地翻譯成圖像,這表明它可以更好地理解語言和主題之間的關(guān)系。再來看下 Parti 效果,袋熊在瀑布旁,背著書包,拄著拐杖眺望著遠(yuǎn)方:一只熊貓戴著一頂巫師帽騎在馬上:
研究人員創(chuàng)建了四種不同規(guī)模的 Parti 模型,其中包括 3.5 億、7.5 億、30 億和 200 億的參數(shù)計(jì)數(shù)。這些模型是使用 Google Cloud TPU 進(jìn)行訓(xùn)練的,這些 TPU 能夠輕松支持創(chuàng)建這些巨大的模型。像所有其他文本到圖像生成器一樣,Parti 以各種類似的方式處理存在的各種問題,例如不正確的對象計(jì)數(shù)、混合特征、不正確的關(guān)系定位或大小、不正確處理否定,列表可能會繼續(xù)等。例如:
Parti 生成的圖像分辨率為 256 x 256 像素,可以放大到 1024 x 1024 像素。下圖顯示了四種經(jīng)過不同級別訓(xùn)練的 Parti 模型在相同命令提示下生成圖像的質(zhì)量差異。具有 200 億參數(shù)的最大模型生成了與長文本輸入匹配的無錯誤圖像。最大版本的 Parti 模型甚至可以拼寫單詞,而 DALL-E 2 只能生成圖像。谷歌的研究團(tuán)隊(duì)寫道:“20B 模型特別適合于需要世界知識、特定視角或符號書寫和表示的抽象任務(wù)?!?/span>另外,Parti 還可以生成超越培訓(xùn)材料及其主題的出色的圖像。研究人員認(rèn)為,這意味著圖像 AI 能夠準(zhǔn)確地再現(xiàn)世界知識,以精細(xì)的細(xì)節(jié)和交互組合產(chǎn)生許多主角和對象,并遵循特定的圖像格式和風(fēng)格。
盡管 Parti 已經(jīng)有能力生成“以假亂真”的超逼真圖片,但其實(shí)該系統(tǒng)存在的一些問題也不容忽視。 谷歌研究團(tuán)隊(duì)對模型生成的圖像可能包含對人的刻板印象也感到擔(dān)憂,這也是 Imagen 和 DALL-E 2 正在努力解決的問題。此外,由于可能會產(chǎn)生逼真的人物圖像,因此存在額外的深度偽造風(fēng)險(xiǎn)。研究團(tuán)隊(duì)目前沒有公布模型、代碼和其他數(shù)據(jù)。谷歌也將推動結(jié)合兩種模型的優(yōu)點(diǎn)的新想法,并擴(kuò)展到相關(guān)任務(wù),例如添加通過文本交互式生成和編輯圖像的功能。還將繼續(xù)進(jìn)行深入的比較和評估,以符合人工智能原則。研究者的目標(biāo)是以安全、負(fù)責(zé)任的方式將基于這些模型的用戶體驗(yàn)帶給世界,從而激發(fā)創(chuàng)造力。參考鏈接:https://blog.google/technology/research/how-ai-creates-photorealistic-images-from-text/https://wandb.ai/telidavies/ml-news/reports/Google-s-Parti-The-Newest-Text-To-Image-Generation-Model--VmlldzoyMjExNjA2
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。