2023-07-10 17:23:05來源:機(jī)器之心
當(dāng)前,大型語言模型(LLM)已經(jīng)掀起自然語言處理(NLP)領(lǐng)域的變革浪潮。我們看到 LLM 具備強(qiáng)大的涌現(xiàn)能力,在復(fù)雜的語言理解任務(wù)、生成任務(wù)乃至推理任務(wù)上都表現(xiàn)優(yōu)異。這啟發(fā)人們進(jìn)一步探索 LLM 在機(jī)器學(xué)習(xí)另一子領(lǐng)域 —— 計(jì)算機(jī)視覺(CV)方面的潛力。
【資料圖】
LLM 的一項(xiàng)卓越才能是它們具備上下文學(xué)習(xí)的能力。上下文學(xué)習(xí)不會(huì)更新 LLM 的任何參數(shù),卻在各種 NLP 任務(wù)中卻展現(xiàn)出了令人驚艷的成果。那么,GPT 能否通過上下文學(xué)習(xí)解決視覺任務(wù)呢?
最近,來自谷歌和卡內(nèi)基梅隆大學(xué)(CMU)的研究者聯(lián)合發(fā)表的一篇論文表明:只要我們能夠?qū)D像(或其他非語言模態(tài))轉(zhuǎn)化為 LLM 能夠理解的語言,這似乎是可行的。
圖片
論文地址:https://arxiv.org/abs/2306.17842
這篇論文揭示了 PaLM 或 GPT 在通過上下文學(xué)習(xí)解決視覺任務(wù)方面的能力,并提出了新方法 SPAE(Semantic Pyramid AutoEncoder)。這種新方法使得 LLM 能夠執(zhí)行圖像生成任務(wù),而無需進(jìn)行任何參數(shù)更新。這也是使用上下文學(xué)習(xí)使得 LLM 生成圖像內(nèi)容的首個(gè)成功方法。
我們先來看一下通過上下文學(xué)習(xí),LLM 在生成圖像內(nèi)容方面的實(shí)驗(yàn)效果。
例如,在給定上下文中,通過提供 50 張手寫圖像,論文要求 PaLM 2 回答需要生成數(shù)字圖像作為輸出的復(fù)雜查詢:
圖片
還能在有圖像上下文輸入的情況下生成逼真的現(xiàn)實(shí)圖像:
圖片
除了生成圖像,通過上下文學(xué)習(xí),PaLM 2 還能進(jìn)行圖像描述:
還有與圖像相關(guān)問題的視覺問答:
圖片
甚至可以去噪生成視頻:
圖片
方法概述實(shí)際上,將圖像轉(zhuǎn)化為 LLM 能夠理解的語言,是在視覺 Transformer(ViT)論文中就已經(jīng)研究過的問題。在 Google 和 CMU 的這篇論文中,他們將其提升到了一個(gè)新的層次 —— 使用實(shí)際的單詞來表示圖像。
這種方法就像建造一個(gè)充滿文字的塔樓,捕捉圖像的語義和細(xì)節(jié)。這種充滿文字的表示方法讓圖像描述可以輕松生成,并讓 LLM 可以回答與圖像相關(guān)的問題,甚至可以重構(gòu)圖像像素。
具體來說,該研究提出使用經(jīng)過訓(xùn)練的編碼器和 CLIP 模型將圖像轉(zhuǎn)換為一個(gè) token 空間;然后利用 LLM 生成合適的詞法 token;最后使用訓(xùn)練有素的解碼器將這些 token 轉(zhuǎn)換回像素空間。這個(gè)巧妙的過程將圖像轉(zhuǎn)換為 LLM 可以理解的語言,使我們能夠利用 LLM 在視覺任務(wù)中的生成能力。
實(shí)驗(yàn)及結(jié)果該研究將 SPAE 與 SOTA 方法 Frozen 和 LQAE 進(jìn)行了實(shí)驗(yàn)比較,結(jié)果如下表 1 所示。SPAEGPT 在所有任務(wù)上性能均優(yōu)于LQAE,且僅使用 2% 的 token。
圖片
總的來說,在 mini-ImageNet 基準(zhǔn)上的測(cè)試表明,SPAE 方法相比之前的 SOTA 方法提升了 25% 的性能。
圖片
為了驗(yàn)證 SPAE 設(shè)計(jì)方法的有效性,該研究進(jìn)行了消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如下表 4 和圖 10 所示:
圖片
圖片
感興趣的讀者可以閱讀論文原文,了解更多研究?jī)?nèi)容。
關(guān)鍵詞:
當(dāng)前,大型語言模型(LLM)已經(jīng)掀起自然語言處理(NLP)領(lǐng)域的變革浪潮
作者|劉尚奇最近一則IT行業(yè)的新聞引起了廣泛傳播,標(biāo)題非常引人注目:
王英文怎么寫的讀,女王用英文怎么寫這個(gè)問題很多朋友還不知道,來為大
圖為甘肅科技集團(tuán)省機(jī)械院銅合金項(xiàng)目建設(shè)有序推進(jìn)。中新網(wǎng)甘肅新聞7月1
莧菜不僅可以炒還可以渣,您大概真沒吃過吧,可以試一試這菜端上桌的時(shí)
為了確定3D打印技術(shù)在未來供應(yīng)鏈中的潛在作用,美國陸軍正著手拆解一架
這篇文章依然源于一位讀者的提問:explain顯示count(*)使用了索引,opt
相信大家對(duì)樓下衛(wèi)生間漏水一定是樓上的原因嗎,衛(wèi)生間反堿會(huì)漏水嗎的問
7月8日,在巴東縣神農(nóng)新區(qū)的巴東廣場(chǎng)上,居民及游客正在休閑散步、運(yùn)動(dòng)
不用贅述,大家都知道,最近半年ChatGPT是有多么火爆。隨著ChatGPT的全
DHCP出現(xiàn)電腦或手機(jī)需要IP地址才能上網(wǎng)。大劉有兩臺(tái)電腦和兩臺(tái)手機(jī),小
近年來,云的采用率急劇增加。事實(shí)上,幾乎所有組織都在云中留下了某種
跟上最新的趨勢(shì)是成為一個(gè)精通網(wǎng)絡(luò)的專業(yè)人士的必要條件。在這樣一個(gè)快
預(yù)測(cè)到2028年,全球企業(yè)在專用網(wǎng)絡(luò)上的支出將從2023年的10億美元增加到
一、前言?對(duì)于普通用戶來說,13代intel處理器的性能表現(xiàn)已經(jīng)足夠強(qiáng)悍