2023-08-21 14:23:19來源:機(jī)器之心
隨著 ChatGPT、GPT-4、LLaMa 等模型的問世,人們?cè)絹碓疥P(guān)注生成式模型的發(fā)展。相比于日漸成熟的文本生成和圖像生成,視頻、語音等模態(tài)的 AI 生成還面臨著較大的挑戰(zhàn)。
現(xiàn)有可控視頻生成工作主要存在兩個(gè)問題:首先,大多數(shù)現(xiàn)有工作基于文本、圖像或軌跡來控制視頻的生成,無法實(shí)現(xiàn)視頻的細(xì)粒度控制;其次,軌跡控制研究仍處于早期階段,大多數(shù)實(shí)驗(yàn)都是在 Human3.6M 等簡單數(shù)據(jù)集上進(jìn)行的,這種約束限制了模型有效處理開放域圖像和復(fù)雜彎曲軌跡的能力。
(資料圖)
基于此,來自中國科學(xué)技術(shù)大學(xué)、微軟亞研和北京大學(xué)的研究者提出了一種基于開放域擴(kuò)散的新型視頻生成模型 ——DragNUWA。DragNUWA 從語義、空間和時(shí)間三個(gè)角度實(shí)現(xiàn)了對(duì)視頻內(nèi)容的細(xì)粒度控制。
論文地址:https://arxiv.org/abs/2308.08089
以拖動(dòng)(drag)的方式給出運(yùn)動(dòng)軌跡,DragNUWA 就能讓圖像中的物體對(duì)象按照該軌跡移動(dòng)位置,并且可以直接生成連貫的視頻。例如,讓兩個(gè)滑滑板的小男孩按要求路線滑行:
還可以「變換」靜態(tài)景物圖像的相機(jī)位置和角度:
方法簡介該研究認(rèn)為文本、圖像、軌跡這三種類型的控制是缺一不可的,因?yàn)樗鼈兏髯杂兄趶恼Z義、空間和時(shí)間角度控制視頻內(nèi)容。如下圖 1 所示,僅文本和圖像的組合不足以傳達(dá)視頻中存在的復(fù)雜運(yùn)動(dòng)細(xì)節(jié),這可以用軌跡信息來補(bǔ)充;僅圖像和軌跡組合無法充分表征視頻中的未來物體,文本控制可以彌補(bǔ)這一點(diǎn);在表達(dá)抽象概念時(shí),僅依賴軌跡和文本可能會(huì)導(dǎo)致歧義,圖像控制可以提供必要的區(qū)別。
DragNUWA 是一種端到端的視頻生成模型,它無縫集成了三個(gè)基本控件 —— 文本、圖像和軌跡,提供強(qiáng)大且用戶友好的可控性,從語義、空間和時(shí)間角度對(duì)視頻內(nèi)容進(jìn)行細(xì)粒度控制。
為了解決當(dāng)前研究中有限的開放域軌跡控制問題,該研究重點(diǎn)關(guān)注三個(gè)方面的軌跡建模:
使用軌跡采樣器(Trajectory Sampler,TS)在訓(xùn)練期間直接從開放域視頻流中采樣軌跡,用于實(shí)現(xiàn)任意軌跡的開放域控制;使用多尺度融合(Multiscale Fusion,MF)將軌跡下采樣到各種尺度,并將其與 UNet 架構(gòu)每個(gè)塊內(nèi)的文本和圖像深度集成,用于控制不同粒度的軌跡;采用自適應(yīng)訓(xùn)練(Adaptive Training,AT)策略,以密集流為初始條件來穩(wěn)定視頻生成,然后在稀疏軌跡上進(jìn)行訓(xùn)練以適應(yīng)模型,最終生成穩(wěn)定且連貫的視頻。實(shí)驗(yàn)及結(jié)果該研究用大量實(shí)驗(yàn)來驗(yàn)證 DragNUWA 的有效性,實(shí)驗(yàn)結(jié)果展示了其在視頻合成細(xì)粒度控制方面的卓越性能。
與現(xiàn)有專注于文本或圖像控制的研究不同,DragNUWA 主要強(qiáng)調(diào)建模軌跡控制。為了驗(yàn)證軌跡控制的有效性,該研究從相機(jī)運(yùn)動(dòng)和復(fù)雜軌跡兩個(gè)方面測(cè)試了 DragNUWA。
如下圖 4 所示,DragNUWA 雖然沒有明確地對(duì)相機(jī)運(yùn)動(dòng)進(jìn)行建模,但它從開放域軌跡的建模中學(xué)習(xí)了各種相機(jī)運(yùn)動(dòng)。
為了評(píng)估 DragNUWA 對(duì)復(fù)雜運(yùn)動(dòng)的精確建模能力,該研究使用相同的圖像和文本對(duì)各種復(fù)雜的拖動(dòng)(drag)軌跡進(jìn)行了測(cè)試。如下圖 5 所示,實(shí)驗(yàn)結(jié)果表明 DragNUWA 能夠可靠地控制復(fù)雜運(yùn)動(dòng)。
此外,DragNUWA 雖然主要強(qiáng)調(diào)軌跡控制建模,但也融合了文本和圖像控制。研究團(tuán)隊(duì)認(rèn)為,文本、圖像和軌跡分別對(duì)應(yīng)視頻的三個(gè)基本控制方面:語義、空間和時(shí)間。下圖 6 通過展示文本(p)、軌跡(g)和圖像(s)的不同組合(包括 s2v、p2v、gs2v、ps2v 和 pgs2v)說明了這些控制條件的必要性。
感興趣的讀者可以閱讀論文原文,了解更多研究內(nèi)容。
關(guān)鍵詞:
隨著ChatGPT、GPT-4、LLaMa等模型的問世,人們?cè)絹碓疥P(guān)注生成式模型的
為什么人們使用PGP加密系統(tǒng)來發(fā)送加密電子郵件和加密敏感文件,或者使
一、債務(wù)重組的方式主要包括哪些債務(wù)重組的方式主要包括:1 以低于債務(wù)
[新聞頁-臺(tái)海網(wǎng)]今天,央行公布了最新的LPR:1年期LPR為3 45%,較上月
出于同樣不太明顯的原因,太多的數(shù)字化轉(zhuǎn)型努力未能達(dá)到預(yù)期:在匆忙實(shí)
1、外星人是否真的存在暫時(shí)沒有定論,但以目前掌握的證據(jù)外星人存大比
HuggingFace上的開源大模型排名榜又更新了,這次榮登榜一的是:鴨嘴獸
7月19日,開源社區(qū)最強(qiáng)的大模型從Llama升級(jí)到Llama2。后者在2萬億的tok
【中國電影市場(chǎng)憑啥成績亮眼?】最近,電影市場(chǎng)傳來捷報(bào)“雙響炮”:暑
在數(shù)字化時(shí)代,網(wǎng)絡(luò)安全問題日益凸顯,各種網(wǎng)絡(luò)攻擊、數(shù)據(jù)泄露、惡意軟
在當(dāng)今的Web應(yīng)用開發(fā)中,React已經(jīng)成為最受歡迎的前端框架之一。它的出
有人想機(jī)械飛升,將自己改造成「半機(jī)械人」。有人想控制夢(mèng)境,用電鉆穿
在Linux操作系統(tǒng)發(fā)行版有一個(gè)NFS服務(wù)端,該服務(wù)端由內(nèi)核態(tài)的模塊和用戶
一、業(yè)務(wù)現(xiàn)狀和背景首先來介紹下艦橋平臺(tái)。艦橋是知乎內(nèi)部的一個(gè)運(yùn)營分
以下是慧博云通在北京時(shí)間8月21日09:41分盤口異動(dòng)快照:8月21日,慧博