2023-08-24 14:22:23來(lái)源:新智元
GPT-4多模態(tài)能力恐怕是要再等等了。
近日,來(lái)自CMU的研究人員全新提出了一種多模態(tài)模型GILL。
(資料圖)
論文地址:https://arxiv.org/pdf/2305.17216.pdf
它可以將文本或圖像作為prompt,完成多模態(tài)對(duì)話。具體來(lái)說(shuō),可以實(shí)現(xiàn)生成文本、檢索圖像、生成新圖像。
甚至,GILL還能從預(yù)先指定的數(shù)據(jù)集中進(jìn)行圖像檢索,并在推理時(shí)決定是檢索還是生成。
值得一提的是,通過(guò)嵌入空間之間的映射,CMU團(tuán)隊(duì)將凍結(jié)的大模型,與預(yù)訓(xùn)練的文生圖模型相結(jié)合。
這樣一來(lái),GILL就能夠?qū)崿F(xiàn)廣泛的應(yīng)用,并且在多個(gè)文本到圖像任務(wù)中優(yōu)于基于Stable Diffusion等生成模型。
先來(lái)看一波演示。
演示GILL能夠?qū)LM預(yù)訓(xùn)練和凍結(jié)能力推廣到許多不同任務(wù)中。具體包括:
https://huggingface.co/spaces/jykoh/gill
多模態(tài)對(duì)話生成
你可以提示GILL生成類似對(duì)話的文本,可以做到圖像檢索、圖像生成,甚至多模態(tài)對(duì)話。
比如,你可以問(wèn)它如何做拉面更有營(yíng)養(yǎng)?GILL給出了加入蔬菜的建議。
我想要一款紋身。GILL瞬間就給你生成了符合要求的圖案。
如何在市場(chǎng)上宣傳這些蛋糕?GILL建議用一個(gè)簡(jiǎn)單的標(biāo)牌,上面附上企業(yè)名稱和小蛋糕的圖片。
從視覺(jué)故事生成圖像
另外,GILL還可以根據(jù)交錯(cuò)的圖像和文本輸入來(lái)生成更相關(guān)的圖像。
多模態(tài)大模型GILLGILL的全稱是:Generating Images with Large Language Models,即用大型語(yǔ)言模型生成圖像。
它能夠處理任意交錯(cuò)的圖像和文本輸入,以生成文本、檢索圖像,和生成新圖像。
GILL模型架構(gòu)概覽。通過(guò)描述損失進(jìn)行訓(xùn)練,以學(xué)習(xí)處理圖像(左),并通過(guò)圖像檢索和圖像生成損失進(jìn)行訓(xùn)練,以學(xué)習(xí)生成圖像(右)
研究表明,盡管2種模型使用完全不同的文本編碼器,但可以有效地將凍結(jié)的純文本LLM的輸出嵌入空間,映射到凍結(jié)文本-圖像生成模型,即Stable Diffusion的嵌入空間。
與其他需要交錯(cuò)圖像-文本訓(xùn)練數(shù)據(jù)的方法相比,研究人員通過(guò)微調(diào)圖像-描述對(duì)上的少量參數(shù)來(lái)實(shí)現(xiàn)這一點(diǎn)。
這個(gè)方法計(jì)算高效,并且不需要在訓(xùn)練時(shí)運(yùn)行圖像生成模型。
GILL的推理時(shí)間過(guò)程。該模型接受圖像和文本輸入,并生成與圖像嵌入交錯(cuò)的文本。在決定是否檢索或生成特定的token集后,并返回適當(dāng)?shù)膱D像輸出
在推理過(guò)程中,模型接受任意交錯(cuò)的圖像和文本輸入,并產(chǎn)生與圖像嵌入交錯(cuò)的文本。在決定是檢索還是生成一組特定的標(biāo)記后,它返回適當(dāng)?shù)膱D像輸出(檢索或生成)
在推理過(guò)程中,該模型接收任意交錯(cuò)的圖像和文本輸入,并生成交錯(cuò)圖像嵌入的文本。在決定是檢索還是生成一組特定的標(biāo)記后,它會(huì)返回相應(yīng)的圖像輸出(檢索或生成)。
實(shí)驗(yàn)結(jié)果上下文圖像生成
為了測(cè)試模型在全新圖像生成的基線方法的能力,研究人員在VIST和VisDial數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。
這些數(shù)據(jù)集與之前的研究中使用的數(shù)據(jù)集相同,用于對(duì)多模態(tài)文本和圖像上下文條件下的圖像檢索進(jìn)行基準(zhǔn)測(cè)試。
GILL模型組合了多模態(tài)信息以產(chǎn)生相關(guān)的圖像和文本輸出,性能優(yōu)于僅限于圖像檢索的基線模型。
評(píng)估指標(biāo)評(píng)估的重點(diǎn)是生成模型處理復(fù)雜語(yǔ)言描述的能力。因此,研究人員計(jì)算了衡量生成圖像內(nèi)容相關(guān)性的指標(biāo)。
這里,有2個(gè)指標(biāo)來(lái)評(píng)估模型:
1. CLIP相似度:使用CLIP ViT-L圖像編碼器來(lái)生成生成圖像和相應(yīng)真實(shí)圖像的合并表示,并得出它們的余弦相似度。分?jǐn)?shù)越高表示生成的圖像與真實(shí)圖像越相似。
2.學(xué)習(xí)感知圖像塊相似度(LPIPS):LPIPS評(píng)估圖像塊之間的距離。測(cè)量真實(shí)圖像和生成圖像之間的LPIPS。較低的值表示2個(gè)圖像在感知空間中更接近,而較高的值表示2個(gè)圖像更不相似。
從視覺(jué)故事生成
VIST是一個(gè)用于順序視覺(jué)和語(yǔ)言任務(wù)的數(shù)據(jù)集,其中包含構(gòu)成故事的5個(gè)圖像和文本序列的示例。
評(píng)估結(jié)果顯示,將GILL與文本到圖像生成基線進(jìn)行比較。
當(dāng)2個(gè)模型都輸入一個(gè)故事描述時(shí),性能相當(dāng),SD獲得了比較好的CLIP相似度得分,并且兩個(gè)模型獲得了相似的 LPIPS。
然而,當(dāng)所有5個(gè)故事描述都作為輸入提供時(shí),GILL優(yōu)于SD,將CLIP相似度從0.598提高到0.612,將LPIPS從0.704 提高到0.6。
有趣的是,當(dāng)進(jìn)一步提供完整的多模態(tài)上下文時(shí),GILL得到了顯著改進(jìn),獲得了0.641的CLIP相似度和0.3的LPIPS。
從視覺(jué)對(duì)話生成
研究人員還在VisDial數(shù)據(jù)集上測(cè)試了模型。
與VIST類似,評(píng)估模型準(zhǔn)確合成所描述圖像的能力,并提供越來(lái)越多的問(wèn)答對(duì)話上下文作為輸入。
評(píng)估結(jié)果顯示,輸入長(zhǎng)度較短時(shí),SD優(yōu)于GILL。
然而,當(dāng)輸入上下文增加時(shí),GILL逐漸改進(jìn),并且可以合成與真實(shí)圖像更相似的圖像。
當(dāng)提供完整的10輪對(duì)話時(shí),GILL的性能顯著優(yōu)于SD,比CLIP相似度(0.622-0.645)和LPIPS(0.723-0.714)都有所提高。
這些結(jié)果,進(jìn)一步凸顯了GILL在處理類似對(duì)話的長(zhǎng)文本輸入方面的有效性。
研究人員還引入了GILLMapper模塊,允許模型有效地映射到Stable Diffusion圖像生成骨干網(wǎng),在PartiPrompts的許多示例中優(yōu)于或匹配SD。
GILLMapper模型架構(gòu)以隱藏的 [IMG] 表示和學(xué)習(xí)的查詢嵌入向量序列為條件。
局限性
雖然GILL引入了許多令人興奮的功能,但它是一個(gè)早期的研究原型,有幾個(gè)局限性。
- GILL的許多功能依賴于LLM主架構(gòu)。因此,它也繼承了LLM典型的許多問(wèn)題:
- GILL并不總是在提示時(shí)產(chǎn)生圖像,或者當(dāng)它對(duì)對(duì)話有用時(shí)。
- GILL的局限性在于它有限的視覺(jué)處理。目前,研究只使用4個(gè)視覺(jué)向量來(lái)表示每個(gè)輸入圖像(由于計(jì)算限制),這可能無(wú)法捕獲下游任務(wù)所需的所有相關(guān)視覺(jué)信息。
- GILL繼承了LLM的一些意外行為,例如潛在的幻覺(jué),它生成的內(nèi)容是錯(cuò)誤的,或者與輸入數(shù)據(jù)無(wú)關(guān)。它有時(shí)還會(huì)生成重復(fù)的文本,并且并不總是生成連貫的對(duì)話文本。
作者介紹Jing Yu Koh
Jing Yu Koh是CMU機(jī)器學(xué)習(xí)系的二年級(jí)博士生,導(dǎo)師是Daniel Fried和Ruslan Salakhutdinov。
目前,他主要的研究方向是基礎(chǔ)語(yǔ)言理解。
丹尼爾·弗里德和魯斯蘭·薩拉庫(kù)蒂諾夫?yàn)槲姨峁┙ㄗh。我致力于基礎(chǔ)語(yǔ)言理解,通常是在視覺(jué)和語(yǔ)言問(wèn)題的背景下。
在此之前,他是谷歌研究中心的一名研究工程師,在那里研究視覺(jué)和語(yǔ)言問(wèn)題以及生成模型。
關(guān)鍵詞:
GPT-4多模態(tài)能力恐怕是要再等等了。近日,來(lái)自CMU的研究人員全新提出了
逆水寒手游游戲的不同副本中都有著不同的Boss需要玩家挑戰(zhàn),其中很多玩
近年來(lái),中國(guó)超大規(guī)模云提供商面臨著來(lái)自全球和本土其他云提供商的激烈
2023年8月份開始,已退休人員的養(yǎng)老金按照新標(biāo)準(zhǔn)發(fā)放,不少地區(qū)已開始
在Oracle數(shù)據(jù)庫(kù)中,初始化參數(shù)是非常重要的配置項(xiàng),它們直接影響數(shù)據(jù)庫(kù)
盡管數(shù)字化轉(zhuǎn)型計(jì)劃的獨(dú)特目標(biāo)和細(xì)節(jié)必須由公司的技術(shù)和業(yè)務(wù)領(lǐng)導(dǎo)層制定
AI區(qū)別于傳統(tǒng)軟件的一個(gè)基本特征是它的非確定性。即使使用相同的輸入,
WiFi自26年前誕生以來(lái)已經(jīng)走過(guò)了漫長(zhǎng)的道路。最初,它支持2 4GHz的2Mbp
關(guān)于既有住宅增設(shè)電梯提取住房公積金的通知各有關(guān)單位:為進(jìn)一步發(fā)揮住
1 介紹虛擬號(hào)是一種基于互聯(lián)網(wǎng)技術(shù)的電話號(hào)碼服務(wù)。它通過(guò)將電話號(hào)碼與
概述樓宇自動(dòng)化控制系統(tǒng)改變了我們管理和控制建筑物各種功能的方式,從
一、前言在日常工作中,無(wú)論是產(chǎn)品經(jīng)理寫PRD或是開發(fā)、測(cè)試同學(xué)寫技術(shù)
環(huán)境:Springboot3 0 5什么是接口防重接口防重是指在一定時(shí)間內(nèi)只允許
我們知道RocketMQ主要分為消息生產(chǎn)、存儲(chǔ)(消息堆積)、消費(fèi)三大塊領(lǐng)域
公攤問(wèn)題,關(guān)鍵還在預(yù)售制,期房,套內(nèi),開發(fā)商,預(yù)售制,公攤面積,商品房現(xiàn)房