無限視覺生成模型NUWA-Infinity讓視覺藝術(shù)創(chuàng)作自由延伸
或許你也曾有過這樣的想法——那些“世界名畫”畫框外的景色是怎樣的?
讓 NUWA-Infinity 帶我們?nèi)ァ耙惶骄烤埂保?/span>
發(fā)現(xiàn)梵高《星空》畫框外更廣闊的風景:
“窺探”《清明上河圖》5.287米畫卷外百姓們的千姿百態(tài):
《清明上河圖》
NUWA-Infinity 基于《清明上河圖》學習后,重新創(chuàng)作生成畫作(分辨率:38912x2048)的一部分
NUWA-Infinity 還可以將靜態(tài)的圖像轉(zhuǎn)化成超高清視頻,為其帶來“活力”。
原始靜態(tài)圖像
NUWA-Infinity 基于靜態(tài)圖像生成的視頻
除此之外,NUWA-Infinity 也可以依據(jù)文本生成超高清圖片,為藝術(shù)創(chuàng)作帶來更加豐富的想象力。
是不是意猶未盡,還想探索更多?歡迎大家點擊閱讀原文,前往 NUWA-Infinity 演示頁面,直觀感受 NUWA-Infinity 的無限創(chuàng)作能力。
為什么微軟亞洲研究院會開發(fā) NUWA-Infinity,背后又用到了哪些新技術(shù)?
隨著以消費為基礎的注意力經(jīng)濟逐漸轉(zhuǎn)為以生產(chǎn)為基礎的創(chuàng)意經(jīng)濟,越來越多的人已經(jīng)成為日常創(chuàng)作者,通過利用各種圖片、視頻編輯工具,實現(xiàn)藝術(shù)作品的創(chuàng)新或再創(chuàng)作。然而,高質(zhì)量的視覺藝術(shù)創(chuàng)作從來都不是一件容易的事,往往需要專業(yè)的技能和設備,并花費大量的時間。與此同時,日常的視覺藝術(shù)創(chuàng)作對更高分辨率的圖像或持續(xù)時間更長的視頻也有著越來越高的需求。
為此,微軟亞洲亞洲研究院 NUWA 團隊研發(fā)出了無限視覺生成模型 NUWA-Infinity。與同樣覆蓋圖像和視頻創(chuàng)作的 NUWA 相比,NUWA-Infinity 在分辨率和可變大小視覺藝術(shù)作品生成方面具有更優(yōu)的性能,并支持五個高分辨率視覺任務的生成,包括無條件圖像生成高分辨率圖、文本生成高分辨率圖像、文本生成高分辨率視頻、圖像生成高分辨率動畫和圖像生成高分辨率圖像。
在 NUWA-Infinity 模型中,研究員們提出了一種全局自回歸嵌套局部自回歸的生成機制,通過全局自回歸建模視覺塊之間的依賴關系和局部自回歸建模視覺詞之間的依賴關系,讓 NUWA-Infinity 能夠生成全局一致且局部細節(jié)豐富的高質(zhì)量圖像和視頻,并提出任意方向控制器(Arbitrary Direction Controller, ADC)來決定合適的生成順序并學習順序感知的位置嵌入。相比其他多模態(tài)生成模型,NUWA-Infinity 可以從給定的文本、圖像或視頻生成與之相關的任意形狀、任意大小的超高分別率圖像,以適配不同設備、平臺和場景;更重要的是,NUWA-Infinity 還支持長時間視頻的生成,比如圖像動畫的制作。
此外,NUWA-Infinity 模型還引入了附近上下文池(Nearby Context Pool, NCP)來緩存已經(jīng)生成的局部圖像,作為正在生成的當前圖像的上下文,這可以在不犧牲視覺塊間依賴性的前提下,顯著節(jié)省計算成本。NUWA-Infinity 極大地彌補了市場上現(xiàn)有技術(shù)僅支持生成大小有限的視覺內(nèi)容以及視覺內(nèi)容創(chuàng)作計算成本高昂的不足。
下一步,NUWA 團隊將持續(xù)推動 NUWA 的演進,并希望研發(fā)出能從三個方面為專業(yè)和日常藝術(shù)創(chuàng)作者賦能的技術(shù):
構(gòu)思:通過自動快速和多樣化的設計生成能力,降低構(gòu)思門檻,在構(gòu)思階段為藝術(shù)創(chuàng)作者提供更多信息和靈感。
美學:降低創(chuàng)意門檻,支持普通用戶以適當?shù)拿缹W/設計質(zhì)量來創(chuàng)作創(chuàng)意作品(NUWA 模型學習了大量高質(zhì)量/高美學標準的圖片)。
效率:通過將 NUWA 的能力集合到一套智能工具中,來提高創(chuàng)作效率,降低創(chuàng)作工作量。
未來,由 AI 生成的高分辨率視覺內(nèi)容將會更加符合圖像設計、廣告、動畫、游戲等行業(yè)的視覺內(nèi)容創(chuàng)作需求,為創(chuàng)作者提供源源不斷的創(chuàng)造靈感。歡迎更多的科研人員、開發(fā)者與微軟亞洲研究院共同探索AI視覺創(chuàng)作領域的廣闊未來。
NUWA 是在科研層面開展的,對視覺藝術(shù)作品自動生成技術(shù)的前沿探索,旨在探索為視覺藝術(shù)創(chuàng)作者提供更智能的工具,支持他們更好地發(fā)揮自己的創(chuàng)意。微軟始終致力于打擊虛假信息,并盡其所能提供最新技術(shù)來檢測被人為操縱的內(nèi)容,幫助人們識別“深度偽造”(deepfake)的信息(欲了解微軟為打擊虛假信息所做的努力,請訪問:https://blogs.microsoft.com/on-the-issues/2020/09/01/disinformation-deepfakes-newsguard-video-authenticator/)。同時,微軟的技術(shù)進步都接受微軟負責任的 AI 流程的指導,并遵循公平、包容、可靠性與安全性、透明、隱私與保障、負責的原則。
論文鏈接:
NUWA-Infinity: Autoregressive over Autoregressive Generation for Infinite Visual Synthesis
https://arxiv.org/abs/2207.09814
演示頁面:
https://nuwa-infinity.microsoft.com/
NUWA-Infinity項目頁面:
https://www.microsoft.com/en-us/research/project/nuwa-infinity/
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。