2023-07-03 10:00:07來源:機器之心
最近,大型語言模型獲得了前所未有的關(guān)注度。在更迭迅速的情況下,開源模型與閉源模型的發(fā)展并駕齊驅(qū),同時呈現(xiàn)百花齊放的態(tài)勢。
(資料圖片僅供參考)
但仍然令大家好奇的是,開源大模型和閉源大模型,哪一邊實力更強?又該如何對比?
近日,在推特上,華盛頓大學(xué)計算機科學(xué)博士生 Wang Yizhong 同樣對眾多指令調(diào)優(yōu)數(shù)據(jù)集及開源模型的發(fā)展提出了這個疑問。
圖片
此前,一些公開的指令調(diào)優(yōu)模型在宣傳時稱,自身可與功能強大的閉源專有模型 (如 ChatGPT) 相媲美,但是大部分能支持這個說法的實驗只是覆蓋了全部任務(wù)的冰山一角而已,并且這些實驗也主要依賴基于模型的評估指標(biāo)。事實上,評估設(shè)置除了測試模型或人工標(biāo)注的生成質(zhì)量外,還應(yīng)該包括測試模型的核心推理和事實回憶技能的任務(wù),這些任務(wù)可能更開放和主觀。
在最近的一項研究中,艾倫人工智能研究所聯(lián)合華盛頓大學(xué)對指令調(diào)優(yōu)資源進行了全面的評估,他們在十幾個公共語料庫上進行了大量的指令調(diào)優(yōu)實驗,從 6.7B 到 65B 的模型規(guī)模都有涉及。研究還評估了特定的模型能力 (即事實知識、推理、多語言性、編碼) 和開放式的指令遵循能力,并展示了基于自動、基于模型和基于人工的評估指標(biāo)的結(jié)果。
論文地址:https://arxiv.org/pdf/2306.04751.pdf
評估表明,在不同數(shù)據(jù)集上進行指令調(diào)優(yōu)似乎可以提高特定的技能,沒有一個數(shù)據(jù)集能在所有評估中均提供最佳性能。他們還發(fā)現(xiàn),底層基礎(chǔ)模型是至關(guān)重要的,更好的基礎(chǔ)模型 (訓(xùn)練于更多 token 或是更大模型)整體表現(xiàn)更好。意料之外的是,研究還發(fā)現(xiàn)在基于模型的評估中首選的模型與在基于基準(zhǔn)的自動評估中表現(xiàn)最好的模型并不匹配,這可能是由于 GPT-4 對長的、多樣化生成的強烈偏見。
評估還表明,在任何給定的評估中,最佳模型的平均性能達到 ChatGPT 的 83%、GPT-4 的 68%,這表明需要進一步構(gòu)建更好的基礎(chǔ)模型和指令調(diào)優(yōu)數(shù)據(jù)以縮小差距。
根據(jù)這些發(fā)現(xiàn),研究團隊提出了「TüLU」,一套在數(shù)據(jù)源組合上進行微調(diào)的 7B 到 65B 的 LLAMA 模型。需要聲明的是,在撰寫本文時,TüLU 65B 是公開發(fā)布的最大的全指令調(diào)優(yōu) LLAMA 變體。它在 7 個流行的可用數(shù)據(jù)集上進行訓(xùn)練,并產(chǎn)生最佳的平均性能,同時在每個單獨任務(wù)上排在最佳性能模型的 15% 以內(nèi)。
研究者開源了用于訓(xùn)練和評估這些大型語言模型的代碼,并發(fā)布了在不同指令數(shù)據(jù)集及其混合物上訓(xùn)練的檢查點,包括 TüLU。
指令數(shù)據(jù)集研究團隊試圖收集不同風(fēng)格數(shù)據(jù)集的代表性樣本 (列在表 1 中),包括:
(1) 由研究人員從現(xiàn)有的 NLP 數(shù)據(jù)集 (SuperNI , Flan V2) 創(chuàng)建;
(2) 由人類從頭編寫,用于指令調(diào)優(yōu) (Dolly , Open Assistant 1 );
(3) 由專有模型生成 (Self-Instruct , Unnatural Instructions、Alpaca、Baize、GPT4-Alpaca );
(4) 由用戶共享的 prompt 和模型生成的補全組成;
(5) 為特定技能而建 (CoT 用于思維鏈,alpaca 用于代碼生成)。
圖片
預(yù)訓(xùn)練模型研究主要使用了 LLAMA 套件,這是一系列預(yù)訓(xùn)練模型,大小從 6.7B 到 65B 參數(shù)不等。這些模型代表了社區(qū)可用的最大、最高質(zhì)量的預(yù)訓(xùn)練模型 (盡管在限制性許可下)。研究還考慮了與 LLAMA 6.7B 模型大小相當(dāng)?shù)?OPT 和 Pythia 模型,以檢查不同基礎(chǔ)模型的效果。
為簡單起見,研究將所有大小四舍五入為整數(shù)。團隊還注意到一些對類似或質(zhì)量更好的模型進行預(yù)訓(xùn)練的工作,他們相信本文的發(fā)現(xiàn)應(yīng)該適用于這些模型以及未來更強大的開放基礎(chǔ)模型。
使用各種數(shù)據(jù)集訓(xùn)練模型統(tǒng)一格式
研究將所有數(shù)據(jù)集格式化為遵循聊天機器人風(fēng)格的模式,以統(tǒng)一指令數(shù)據(jù)集的各種風(fēng)格和格式,如圖 1 所示。這讓研究團隊能夠?qū)⒂脩艉驼Z言模型 (又稱「assistant」) 之間的任意輪交互擬合到一個輸入序列中,并將它們與因果語言模型一起編碼。他們在用戶話語和目標(biāo)助手響應(yīng)之前分別添加了特殊 token<|user|> 和 <|assistant|>,并在每個 assistant 輸出的末尾添加了一個文本結(jié)束 token,在推理時,該 token 將停止模型每輪的響應(yīng)。
TüLU:整合資源,更好的指令調(diào)優(yōu)模型
鑒于現(xiàn)有的研究表明,增加指令的多樣性能夠有效提高指令調(diào)優(yōu)的性能,因此研究者將兩個數(shù)據(jù)集結(jié)合起來:
人類混合數(shù)據(jù),由最佳的人工編寫數(shù)據(jù)集組成。包括 FLAN V2、CoT、Dolly 和 Open Assistant 1 (排除了了 SuperNI,因為 FLAN V2 已經(jīng)包含了 SuperNI 中的大多數(shù)任務(wù));
人類 + GPT 混合數(shù)據(jù) ,包括人類混合數(shù)據(jù)和由 OpenAI GPT 模型生成的另外三個數(shù)據(jù)集,包括 GPT4-Alpaca、Code-Alpaca 和 ShareGPT。
研究團隊將這些混合數(shù)據(jù)集連接起來,并將探索更復(fù)雜的采樣混合物的工作留給未來。他們把在人類 + GPT 混合數(shù)據(jù)上訓(xùn)練的 LLAMA 模型命名為 TüLU—— 不同物種之間雜交產(chǎn)生的雜交駱駝。
實驗結(jié)果指令調(diào)優(yōu)數(shù)據(jù)集和基礎(chǔ)模型分析
為了了解表 1 中列出的指令數(shù)據(jù)集對模型能力的貢獻,研究者使用評估套件評估了在這些數(shù)據(jù)集上訓(xùn)練的 LLaMa 13B 模型。表 3 展示了基準(zhǔn)評估集上的結(jié)果,其中 App D 的結(jié)果更為廣泛。
實驗結(jié)論如下:
一個跨所有任務(wù)的最佳指令調(diào)優(yōu)數(shù)據(jù)集是不存在的;合并數(shù)據(jù)集可以在基準(zhǔn)任務(wù)上獲得最佳的整體性能;基礎(chǔ)模型的質(zhì)量對于下游性能非常重要。(見表 4)圖片
挑戰(zhàn)開放模型的極限
當(dāng)確定「使用廣泛的數(shù)據(jù)混合是最好的」以及「使用 LLAMA 作為基礎(chǔ)模型比其他開放替代方案更可取」后,研究比較所有 LLAMA 尺寸的人類 + GPT 數(shù)據(jù)混合 (TüLU 模型) 上訓(xùn)練的模型的性能(如表 5 所示)。
圖片
實驗結(jié)論得出:
指令調(diào)優(yōu)給所有尺寸的 LLAMA 模型都帶來了很大的好處;較小的模型從指令調(diào)優(yōu)中獲益最大;TüLU 仍然落后于最先進的專有模型。基于模型的開放式生成評估結(jié)果
表 6 中報告了模型 AlpacaFarm 勝率。
由此可以得出以下結(jié)果:
基于傳統(tǒng) NLP 數(shù)據(jù)集的混合模型表現(xiàn)不佳;鼓勵長時間、多樣化代的數(shù)據(jù)集表現(xiàn)最好 (見圖 2);ShareGPT 的性能最好。圖片
總體而言,有這些結(jié)果可以看出,雖然模型偏好評估很重要,但它并沒有提供對這些模型的整體評估。因此,在更大、更全面的評估設(shè)置里,模型偏好評估應(yīng)該只作為其中的一部分。
開放式生成的人工評價結(jié)果
圖 4 中展示了人工評估結(jié)果。人工評估結(jié)果與 AlpacaFarm 和基于基準(zhǔn)的評估具有強烈相關(guān)性:所有評估表明,65B TüLU 優(yōu)于 7B TüLU。這表明使用更大的基礎(chǔ)模型是重要的,并且在 65B TüLU 和 ChatGPT 之間仍有不小的性能差距。
圖片
除此之外,研究還發(fā)現(xiàn)利用蒸餾數(shù)據(jù)集可以讓性能有很大的提升,這表明相比之下人類編寫的數(shù)據(jù)集是匱乏的。這些觀察結(jié)果也與圖 3 中的可接受性分?jǐn)?shù)相一致。7B TüLU 在模型偏好評估中優(yōu)于 human-mix 65B TüLU,但如果比較圖 3 中的可接受性分?jǐn)?shù),則情況似乎相反。這進一步證明,模型兩兩評估可能并不始終揭示模型缺陷。在這種情況下,65B 人類混合模型比 7B 模型更有可能產(chǎn)生可接受的 (如果不是高質(zhì)量的) 響應(yīng)。
圖片
更多詳細內(nèi)容,請參見原文。
關(guān)鍵詞:
最近,大型語言模型獲得了前所未有的關(guān)注度。在更迭迅速的情況下,開源
picopico怎么發(fā)視頻動態(tài)PicoPico發(fā)布圖文說說方法,
游戲中有各種各樣的策略你需要知道。只有知道了策略,才能快速取得游戲
南向資金對港股通標(biāo)的股的整體持股比例為%,123只個股南向資金持股比例
不久之前,有位讀者問了一個關(guān)于insertintentionwaiting的問題,回答過
JUC-輔助類JUC(java util concurrent)是在Java5中引入的一個并發(fā)編程
為什么要多階段構(gòu)建大家都知道Golang是編譯型語言,源碼需要先編譯再運
一、類和對象1、什么是類和對象面向?qū)ο缶幊淌且环N編程范式,它將程序
之前在這篇文章(CSS實現(xiàn)樹狀結(jié)構(gòu)目錄[1])中實現(xiàn)了一個樹狀結(jié)構(gòu),效果
需求集中釋放后,市場掉頭向下。
家長在為孩子選擇國際學(xué)校綜合考慮的因素很多,比如學(xué)費、課程體系、師
陵川補齊農(nóng)村黨建“短板”助推鄉(xiāng)村振興,主流媒體,山西門戶。山西新聞網(wǎng)
7月3日,信音電子(301329 SZ)開啟申購,發(fā)行價格為21 00元 股,申購上
新華社羅馬7月2日電(國際觀察)全球糧農(nóng)事業(yè)發(fā)展的中國貢獻新華社記者
火箭在幾天前還在追求天賦,在幾天后立刻放棄了天賦?,老鷹,天賦,火箭