時(shí)間、空間可控的視頻生成走進(jìn)現(xiàn)實(shí),阿里大模型新作VideoComposer火了(1)
在 AI 繪畫領(lǐng)域,阿里提出的 Composer 和斯坦福提出的基于 Stable diffusion 的 ControlNet 引領(lǐng)了可控圖像生成的理論發(fā)展。但是,業(yè)界在可控視頻生成上的探索依舊處于相對(duì)空白的狀態(tài)。
相比于圖像生成,可控的視頻更加復(fù)雜,因?yàn)槌艘曨l內(nèi)容的空間的可控性之外,還需要滿足時(shí)間維度的可控性。基于此,阿里巴巴和螞蟻集團(tuán)的研究團(tuán)隊(duì)率先做出嘗試并提出了 VideoComposer,即通過(guò)組合式生成范式同時(shí)實(shí)現(xiàn)視頻在時(shí)間和空間兩個(gè)維度上的可控性。
論文地址:https://arxiv.org/abs/2306.02018
項(xiàng)目主頁(yè):https://videocomposer.github.io
前段時(shí)間,阿里巴巴在魔搭社區(qū)和 Hugging Face 低調(diào)開(kāi)源了文生視頻大模型,意外地受到國(guó)內(nèi)外開(kāi)發(fā)者的廣泛關(guān)注,該模型生成的視頻甚至得到馬斯克本尊的回應(yīng),模型在魔搭社區(qū)上連續(xù)多天獲得單日上萬(wàn)次國(guó)際訪問(wèn)量。
Text-to-Video 在推特
VideoComposer 作為該研究團(tuán)隊(duì)的最新成果,又一次受到了國(guó)際社區(qū)的廣泛關(guān)注。
VideoComposer 在推特
事實(shí)上,可控性已經(jīng)成為視覺(jué)內(nèi)容創(chuàng)作的更高基準(zhǔn),其在定制化的圖像生成方面取得了顯著進(jìn)步,但在視頻生成領(lǐng)域仍然具有三大挑戰(zhàn):
復(fù)雜的數(shù)據(jù)結(jié)構(gòu),生成的視頻需同時(shí)滿足時(shí)間維度上的動(dòng)態(tài)變化的多樣性和時(shí)空維度的內(nèi)容一致性;
復(fù)雜的引導(dǎo)條件,已存在的可控的視頻生成需要復(fù)雜的條件是無(wú)法人為手動(dòng)構(gòu)建的。比如 Runway 提出的 Gen-1/2 需要依賴深度序列作條件,其能較好的實(shí)現(xiàn)視頻間的結(jié)構(gòu)遷移,但不能很好的解決可控性問(wèn)題;
缺乏運(yùn)動(dòng)可控性,運(yùn)動(dòng)模式是視頻即復(fù)雜又抽象的屬性,運(yùn)動(dòng)可控性是解決視頻生成可控性的必要條件。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。