2023-07-04 14:05:58來(lái)源:機(jī)器學(xué)習(xí)
近幾年,圖像生成領(lǐng)域取得了巨大的進(jìn)步,尤其是文本到圖像生成方面取得了重大突破:只要我們用文本描述自己的想法,AI 就能生成新奇又逼真的圖像。
(資料圖)
但其實(shí)我們可以更進(jìn)一步 —— 將頭腦中的想法轉(zhuǎn)化為文本這一步可以省去,直接通過(guò)腦活動(dòng)(如 EEG(腦電圖)記錄)來(lái)控制圖像的生成創(chuàng)作。
這種「思維到圖像」的生成方式有著廣闊的應(yīng)用前景。例如,它能極大提高藝術(shù)創(chuàng)作的效率,并幫助人們捕捉稍縱即逝的靈感;它也有可能將人們夜晚的夢(mèng)境進(jìn)行可視化;它甚至可能用于心理治療,幫助自閉癥兒童和語(yǔ)言障礙患者。
最近,來(lái)自清華大學(xué)深圳國(guó)際研究生院、騰訊 AI Lab 和鵬城實(shí)驗(yàn)室的研究者們聯(lián)合發(fā)表了一篇「思維到圖像」的研究論文,利用預(yù)訓(xùn)練的文本到圖像模型(比如 Stable Diffusion)強(qiáng)大的生成能力,直接從腦電圖信號(hào)生成了高質(zhì)量的圖像。
圖片
論文地址:https://arxiv.org/pdf/2306.16934.pdf
項(xiàng)目地址:https://github.com/bbaaii/DreamDiffusion
方法概述近期一些相關(guān)研究(例如 MinD-Vis)嘗試基于 fMRI(功能性磁共振成像信號(hào))來(lái)重建視覺(jué)信息。他們已經(jīng)證明了利用腦活動(dòng)重建高質(zhì)量結(jié)果的可行性。然而,這些方法與理想中使用腦信號(hào)進(jìn)行快捷、高效的創(chuàng)作還差得太遠(yuǎn),這主要有兩點(diǎn)原因:
首先,fMRI 設(shè)備不便攜,并且需要專業(yè)人員操作,因此捕捉 fMRI 信號(hào)很困難;
其次,fMRI 數(shù)據(jù)采集的成本較高,這在實(shí)際的藝術(shù)創(chuàng)作中會(huì)很大程度地阻礙該方法的使用。
相比之下,EEG 是一種無(wú)創(chuàng)、低成本的腦電活動(dòng)記錄方法,并且現(xiàn)在市面上已經(jīng)有獲得 EEG 信號(hào)的便攜商用產(chǎn)品。
但實(shí)現(xiàn)「思維到圖像」的生成還面臨兩個(gè)主要挑戰(zhàn):
1)EEG 信號(hào)通過(guò)非侵入式的方法來(lái)捕捉,因此它本質(zhì)上是有噪聲的。此外,EEG 數(shù)據(jù)有限,個(gè)體差異不容忽視。那么,如何從如此多的約束條件下的腦電信號(hào)中獲得有效且穩(wěn)健的語(yǔ)義表征呢?
2)由于使用了 CLIP 并在大量文本 - 圖像對(duì)上進(jìn)行訓(xùn)練,Stable Diffusion 中的文本和圖像空間對(duì)齊良好。然而,EEG 信號(hào)具有其自身的特點(diǎn),其空間與文本和圖像大不相同。如何在有限且?guī)в性肼暤?EEG - 圖像對(duì)上對(duì)齊 EEG、文本和圖像空間?
為了解決第一個(gè)挑戰(zhàn),該研究提出,使用大量的 EEG 數(shù)據(jù)來(lái)訓(xùn)練 EEG 表征,而不是僅用罕見(jiàn)的 EEG 圖像對(duì)。該研究采用掩碼信號(hào)建模的方法,根據(jù)上下文線索預(yù)測(cè)缺失的 token。
不同于將輸入視為二維圖像并屏蔽空間信息的 MAE 和 MinD-Vis,該研究考慮了 EEG 信號(hào)的時(shí)間特性,并深入挖掘人類大腦時(shí)序變化背后的語(yǔ)義。該研究隨機(jī)屏蔽了一部分 token,然后在時(shí)間域內(nèi)重建這些被屏蔽的 token。通過(guò)這種方式,預(yù)訓(xùn)練的編碼器能夠?qū)Σ煌瑐€(gè)體和不同腦活動(dòng)的 EEG 數(shù)據(jù)進(jìn)行深入理解。
對(duì)于第二個(gè)挑戰(zhàn),先前的解決方法通常直接對(duì) Stable Diffusion 模型進(jìn)行微調(diào),使用少量噪聲數(shù)據(jù)對(duì)進(jìn)行訓(xùn)練。然而,僅通過(guò)最終的圖像重構(gòu)損失對(duì) SD 進(jìn)行端到端微調(diào),很難學(xué)習(xí)到腦信號(hào)(例如 EEG 和 fMRI)與文本空間之間的準(zhǔn)確對(duì)齊。因此,研究團(tuán)隊(duì)提出采用額外的 CLIP 監(jiān)督,幫助實(shí)現(xiàn) EEG、文本和圖像空間的對(duì)齊。
具體而言,SD 本身使用 CLIP 的文本編碼器來(lái)生成文本嵌入,這與之前階段的掩碼預(yù)訓(xùn)練 EEG 嵌入非常不同。利用 CLIP 的圖像編碼器提取豐富的圖像嵌入,這些嵌入與 CLIP 的文本嵌入很好地對(duì)齊。然后,這些 CLIP 圖像嵌入被用于進(jìn)一步優(yōu)化 EEG 嵌入表征。因此,經(jīng)過(guò)改進(jìn)的 EEG 特征嵌入可以與 CLIP 的圖像和文本嵌入很好地對(duì)齊,并更適合于 SD 圖像生成,從而提高生成圖像的質(zhì)量。
基于以上兩個(gè)精心設(shè)計(jì)的方案,該研究提出了新方法 DreamDiffusion。DreamDiffusion 能夠從腦電圖(EEG)信號(hào)中生成高質(zhì)量且逼真的圖像。
圖片
具體來(lái)說(shuō),DreamDiffusion 主要由三個(gè)部分組成:
1)掩碼信號(hào)預(yù)訓(xùn)練,以實(shí)現(xiàn)有效和穩(wěn)健的 EEG 編碼器;
2)使用預(yù)訓(xùn)練的 Stable Diffusion 和有限的 EEG 圖像對(duì)進(jìn)行微調(diào);
3)使用 CLIP 編碼器,對(duì)齊 EEG、文本和圖像空間。
首先,研究人員利用帶有大量噪聲的 EEG 數(shù)據(jù),采用掩碼信號(hào)建模,訓(xùn)練 EEG 編碼器,提取上下文知識(shí)。然后,得到的 EEG 編碼器通過(guò)交叉注意力機(jī)制被用來(lái)為 Stable Diffusion 提供條件特征。
圖片
為了增強(qiáng) EEG 特征與 Stable Diffusion 的兼容性,研究人員進(jìn)一步通過(guò)在微調(diào)過(guò)程中減少 EEG 嵌入與 CLIP 圖像嵌入之間的距離,進(jìn)一步對(duì)齊了 EEG、文本和圖像的嵌入空間。
實(shí)驗(yàn)與分析與 Brain2Image 對(duì)比
研究人員將本文方法與 Brain2Image 進(jìn)行比較。Brain2Image 采用傳統(tǒng)的生成模型,即變分自編碼器(VAE)和生成對(duì)抗網(wǎng)絡(luò)(GAN),用于實(shí)現(xiàn)從 EEG 到圖像的轉(zhuǎn)換。然而,Brain2Image 僅提供了少數(shù)類別的結(jié)果,并沒(méi)有提供參考實(shí)現(xiàn)。
鑒于此,該研究對(duì) Brain2Image 論文中展示的幾個(gè)類別(即飛機(jī)、南瓜燈和熊貓)進(jìn)行了定性比較。為確保比較公平,研究人員采用了與 Brain2Image 論文中所述相同的評(píng)估策略,并在下圖 5 中展示了不同方法生成的結(jié)果。
下圖第一行展示了 Brain2Image 生成的結(jié)果,最后一行是研究人員提出的方法 DreamDiffusion 生成的??梢钥吹?DreamDiffusion 生成的圖像質(zhì)量明顯高于 Brain2Image 生成的圖像,這也驗(yàn)證了本文方法的有效性。
圖片
消融實(shí)驗(yàn)
預(yù)訓(xùn)練的作用:為了證明大規(guī)模 EEG 數(shù)據(jù)預(yù)訓(xùn)練的有效性,該研究使用未經(jīng)訓(xùn)練的編碼器來(lái)訓(xùn)練多個(gè)模型進(jìn)行驗(yàn)證。其中一個(gè)模型與完整模型相同,而另一個(gè)模型只有兩層的 EEG 編碼層,以避免數(shù)據(jù)過(guò)擬合。在訓(xùn)練過(guò)程中,這兩個(gè)模型分別進(jìn)行了有 / 無(wú) CLIP 監(jiān)督的訓(xùn)練,結(jié)果如表 1 中 Model 列的 1 到 4 所示??梢钥吹?,沒(méi)有經(jīng)過(guò)預(yù)訓(xùn)練的模型準(zhǔn)確性有所降低。
mask ratio:本文還研究了用 EEG 數(shù)據(jù)確定 MSM 預(yù)訓(xùn)練的最佳掩碼比。如表 1 中的 Model 列的 5 到 7 所示,過(guò)高或過(guò)低的掩碼比會(huì)對(duì)模型性能都會(huì)產(chǎn)生不利影響。當(dāng)掩碼比為 0.75 達(dá)到最高的整體準(zhǔn)確率。這一發(fā)現(xiàn)至關(guān)重要,因?yàn)檫@表明,與通常使用低掩碼比的自然語(yǔ)言處理不同,在對(duì) EEG 進(jìn)行 MSM 時(shí),高掩碼比是一個(gè)較好的選擇。
CLIP 對(duì)齊:該方法的關(guān)鍵之一是通過(guò) CLIP 編碼器將 EEG 表征與圖像對(duì)齊。該研究進(jìn)行實(shí)驗(yàn)驗(yàn)證了這種方法的有效性,結(jié)果如表 1 所示。可以觀察到,當(dāng)沒(méi)有使用 CLIP 監(jiān)督時(shí),模型的性能明顯下降。實(shí)際上,如圖 6 右下角所示,即使在沒(méi)有預(yù)訓(xùn)練的情況下,使用 CLIP 對(duì)齊 EEG 特征仍然可以得到合理的結(jié)果,這凸顯了 CLIP 監(jiān)督在該方法中的重要性。
圖片
關(guān)鍵詞:
近幾年,圖像生成領(lǐng)域取得了巨大的進(jìn)步,尤其是文本到圖像生成方面取得
我們都知道,大模型具有自省能力,可以對(duì)寫出的代碼進(jìn)行自我糾錯(cuò)。這種
據(jù)韓國(guó)媒體“news1”報(bào)道,原本計(jì)劃9月份在英國(guó)與墨西哥隊(duì)進(jìn)行的熱身賽
7月4日下午,港股創(chuàng)新藥板塊午后拉升,信達(dá)生物漲超7%,百濟(jì)神州漲近5%
北汽藍(lán)谷近日接受機(jī)構(gòu)調(diào)研時(shí)表示,公司計(jì)劃在2023年將渠道網(wǎng)點(diǎn)增加至約
如今智能設(shè)備的無(wú)縫連接已成為現(xiàn)實(shí),我們將了解物聯(lián)網(wǎng)如何影響當(dāng)今的樓
本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
精進(jìn)電動(dòng)(688280)07月04日在投資者關(guān)系平臺(tái)上答復(fù)了投資者關(guān)心的問(wèn)題。
7月3日,二三四五(002195)融資買入1276 22萬(wàn)元,融資償還1632 46萬(wàn)元
大數(shù)據(jù)文摘出品作者:Caleb如果一個(gè)網(wǎng)站每個(gè)月有超過(guò)20億人訪問(wèn),每人
隨著信息技術(shù)和互聯(lián)網(wǎng)的發(fā)展,票務(wù)系統(tǒng)也在不斷升級(jí),比如實(shí)現(xiàn)了移動(dòng)支
一、解決大圖內(nèi)存 計(jì)算問(wèn)題的三個(gè)范式在兩年前做的tutorial里面,我們
大型語(yǔ)言模型(LLM)已經(jīng)很強(qiáng)了,但還可以更強(qiáng)。通過(guò)結(jié)合知識(shí)圖譜,LLM
每個(gè)企業(yè)中都有一些問(wèn)題員工,但是管理IT領(lǐng)域的員工有一系列特定的挑戰(zhàn)
在貴州榕江縣進(jìn)行的“和美鄉(xiāng)村足球超級(jí)聯(lián)賽”持續(xù)火爆網(wǎng)絡(luò),目前,“村