首頁>國內(nèi) > 正文

天天新資訊：爆火DragGAN正式開源，GitHub近18k星！清華校友帶GAN逆襲，大象一秒P轉(zhuǎn)身

2023-06-27 10:06:48來源：新智元

上個(gè)月，一項(xiàng)名為「Drag Your GAN」的核彈級研究，在AI繪圖圈炸響。

論文由MPII、MIT、賓大、谷歌等機(jī)構(gòu)的學(xué)者聯(lián)合發(fā)布，并且已被SIGGRAPH 2023錄用。

從此，我們只需一拖一拽，就能實(shí)現(xiàn)完美P圖了，哪里不準(zhǔn)修哪里！

(資料圖片僅供參考)

圖片

拍的照片表情不好？修！臉型不夠瘦？修！臉沖鏡頭的角度不對？修！

而就在剛剛，團(tuán)隊(duì)正式放出了官方代碼！

圖片

項(xiàng)目地址：https://github.com/XingangPan/DragGAN

首先，需要下載預(yù)訓(xùn)練StyleGAN2的權(quán)重：

sh scripts/download_model.sh

如果想嘗試StyleGAN-Human和Landscapes HQ（LHQ）數(shù)據(jù)集，則需要將下載的權(quán)重放到./checkpoints目錄下。

接著，啟動(dòng)DragGAN GUI來編輯GAN生成的圖像：

sh scripts/gui.sh

如果要編輯真實(shí)圖像，則需要使用像PTI這樣的工具執(zhí)行GAN反演。然后將新的潛在代碼和模型權(quán)重加載到GUI中。

有網(wǎng)友在上手試用后表示，只會占用大約6G顯存，但是使用效果不是很理想，坐等后續(xù)改進(jìn)。

圖片

GAN逆襲歸來，一秒把大象P轉(zhuǎn)身

顧名思義，通過DragGAN，我們可以任意拖動(dòng)圖像進(jìn)行編輯，無論是對象的形狀、布局、姿態(tài)、表情、位置、大小，都可以做到精準(zhǔn)控制。

圖片

項(xiàng)目地址：https://vcai.mpi-inf.mpg.de/projects/DragGAN/

在確定關(guān)鍵點(diǎn)的起始和終止位置之后，再根據(jù)對象的物理結(jié)構(gòu)，用GAN生成符合邏輯的圖像，一張?zhí)舨怀銎凭`的圖就做好了。

圖片

比如，輕輕一拖動(dòng)，就能想把耷拉著的狗耳朵提起來，讓狗狗從站著變成趴下，以及讓狗狗瞬間張嘴微笑。

圖片

模特的姿勢可以隨意改變，短褲可以變成九分褲，短袖可以變長袖。

圖片

湖邊的樹可以瞬間長高，湖里的倒影也跟著一起改變。

圖片

原圖中的太陽沒露臉？無所謂，DragGAN會給你造個(gè)日出。

圖片

對此網(wǎng)友調(diào)侃稱，現(xiàn)在甲方提出「讓大象轉(zhuǎn)個(gè)身」的要求，終于可以實(shí)現(xiàn)了。

DragGAN：圖像處理新時(shí)代

在這項(xiàng)工作中，團(tuán)隊(duì)研究了一種強(qiáng)大但還未被充分探索的控制GAN的方法——以交互的方式將圖像中任意一點(diǎn)精確「拖動(dòng)」至目標(biāo)點(diǎn)。

圖片

DragGAN主要包括以下兩個(gè)主要組成部分：

1.基于特征的運(yùn)動(dòng)監(jiān)控，驅(qū)動(dòng)操作點(diǎn)向目標(biāo)位置移動(dòng)

2.一個(gè)新的點(diǎn)跟蹤方法，利用區(qū)分性的GAN特征持續(xù)定位操作點(diǎn)的位置

通過DragGAN，任何人都可以對像素進(jìn)行精確的控制，進(jìn)而編輯如動(dòng)物、汽車、人類、風(fēng)景等多種類別的姿態(tài)、形狀、表情和布局。

由于這些操作在GAN的學(xué)習(xí)生成圖像流形上進(jìn)行，因此它們傾向于生成逼真的輸出，即使在富有挑戰(zhàn)性的場景下也是如此，例如被遮擋的內(nèi)容和變形的圖像。

定性和定量的對比表明，DragGAN在圖像操作和點(diǎn)跟蹤任務(wù)中，都明顯優(yōu)于先前的方法。

拖拽編輯

在DragGAN的加持下，用戶只需要設(shè)置幾個(gè)操作點(diǎn)（紅點(diǎn)），目標(biāo)點(diǎn)（藍(lán)點(diǎn)），以及可選的表示可移動(dòng)區(qū)域的mask（亮區(qū)）。然后，模型就會自動(dòng)完成后續(xù)的圖像生成，

其中，動(dòng)態(tài)監(jiān)控步驟會讓操作點(diǎn)（紅點(diǎn)）向目標(biāo)點(diǎn)（藍(lán)點(diǎn)）移動(dòng)，點(diǎn)追蹤步驟則通過更新操作點(diǎn)來追蹤圖像中的對象。此過程會一直持續(xù)，直到操作點(diǎn)達(dá)到其相應(yīng)的目標(biāo)點(diǎn)。

圖片

流程

具體來說，團(tuán)隊(duì)通過在生成器的特征圖上的位移修補(bǔ)損失來實(shí)現(xiàn)動(dòng)態(tài)監(jiān)控，并在相同的特征空間中通過最近鄰搜索進(jìn)行點(diǎn)追蹤。

圖片

方法

值得注意的是，用戶可以通過添加mask的方式，來控制需要編輯的區(qū)域。

可以看到，當(dāng)狗的頭部被mask時(shí)，在編輯后的圖像中，只有頭部發(fā)生了移動(dòng)，而其他區(qū)域則并未發(fā)生變化。但如果沒有mask的話，整個(gè)狗的身體也會跟著移動(dòng)。

這也顯示出，基于點(diǎn)的操作通常有多種可能的解決方案，而GAN會傾向于在其從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)的圖像流形中找到最近的解決方案。

圖片

mask的效果

在真實(shí)圖像的編輯中，團(tuán)隊(duì)?wèi)?yīng)用GAN反轉(zhuǎn)將其映射到StyleGAN的潛空間，然后分別編輯姿勢、頭發(fā)、形狀和表情。

圖片

真實(shí)圖像的處理

不僅如此，DragGAN還具有強(qiáng)大的泛化能力，可以創(chuàng)建出超出訓(xùn)練圖像分布的圖像。比如，一個(gè)張得巨大的嘴，以及一個(gè)被極限放大的車輪。

圖片

泛化能力

作者介紹

XingangPan

論文一作Xingang Pan，目前已經(jīng)正式成為了南洋理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院的助理教授。

研究方向主要集中在生成式AI模型、AI與人類協(xié)同內(nèi)容生成、3D/視頻編輯和生成、神經(jīng)場景表示和渲染，以及物理感知內(nèi)容生成。

在此之前，他于2016年在清華大學(xué)獲得學(xué)士學(xué)位，2021年在香港中文大學(xué)多媒體實(shí)驗(yàn)室獲得博士學(xué)位，導(dǎo)師是湯曉鷗教授。隨后在馬克斯·普朗克計(jì)算機(jī)科學(xué)研究所從事了博士后研究，由Christian Theobalt教授指導(dǎo)。

LingjieLiu

Lingjie Liu是賓夕法尼亞大學(xué)計(jì)算機(jī)和信息科學(xué)系的Aravind K. Joshi助理教授，負(fù)責(zé)賓大計(jì)算機(jī)圖形實(shí)驗(yàn)室，同時(shí)也是通用機(jī)器人、自動(dòng)化、傳感和感知（GRASP）實(shí)驗(yàn)室的成員。

在此之前，她是馬克斯·普朗克計(jì)算機(jī)科學(xué)研究所的Lise Meitner博士后研究人員。并于2019年在香港大學(xué)獲得博士學(xué)位。

關(guān)鍵詞：