人人妻人人澡人人爽人人精品av_精品乱码一区内射人妻无码_老司机午夜福利视频_精品成品国色天香摄像头_99精品福利国产在线导航_野花社区在线观看视频_大地资源在线影视播放_东北高大肥胖丰满熟女_金门瓶马车内剧烈运动

首頁>國內(nèi) > 正文

「羊駝」們走到哪一步了?研究表明:最好的能達到GPT-4性能的68%_全球新動態(tài)

2023-07-03 10:00:07來源:機器之心

最近,大型語言模型獲得了前所未有的關(guān)注度。在更迭迅速的情況下,開源模型與閉源模型的發(fā)展并駕齊驅(qū),同時呈現(xiàn)百花齊放的態(tài)勢。


(資料圖片僅供參考)

但仍然令大家好奇的是,開源大模型和閉源大模型,哪一邊實力更強?又該如何對比?

近日,在推特上,華盛頓大學(xué)計算機科學(xué)博士生 Wang Yizhong 同樣對眾多指令調(diào)優(yōu)數(shù)據(jù)集及開源模型的發(fā)展提出了這個疑問。

圖片

此前,一些公開的指令調(diào)優(yōu)模型在宣傳時稱,自身可與功能強大的閉源專有模型 (如 ChatGPT) 相媲美,但是大部分能支持這個說法的實驗只是覆蓋了全部任務(wù)的冰山一角而已,并且這些實驗也主要依賴基于模型的評估指標(biāo)。事實上,評估設(shè)置除了測試模型或人工標(biāo)注的生成質(zhì)量外,還應(yīng)該包括測試模型的核心推理和事實回憶技能的任務(wù),這些任務(wù)可能更開放和主觀。

在最近的一項研究中,艾倫人工智能研究所聯(lián)合華盛頓大學(xué)對指令調(diào)優(yōu)資源進行了全面的評估,他們在十幾個公共語料庫上進行了大量的指令調(diào)優(yōu)實驗,從 6.7B 到 65B 的模型規(guī)模都有涉及。研究還評估了特定的模型能力 (即事實知識、推理、多語言性、編碼) 和開放式的指令遵循能力,并展示了基于自動、基于模型和基于人工的評估指標(biāo)的結(jié)果。

論文地址:https://arxiv.org/pdf/2306.04751.pdf

評估表明,在不同數(shù)據(jù)集上進行指令調(diào)優(yōu)似乎可以提高特定的技能,沒有一個數(shù)據(jù)集能在所有評估中均提供最佳性能。他們還發(fā)現(xiàn),底層基礎(chǔ)模型是至關(guān)重要的,更好的基礎(chǔ)模型 (訓(xùn)練于更多 token 或是更大模型)整體表現(xiàn)更好。意料之外的是,研究還發(fā)現(xiàn)在基于模型的評估中首選的模型與在基于基準(zhǔn)的自動評估中表現(xiàn)最好的模型并不匹配,這可能是由于 GPT-4 對長的、多樣化生成的強烈偏見。

評估還表明,在任何給定的評估中,最佳模型的平均性能達到 ChatGPT 的 83%、GPT-4 的 68%,這表明需要進一步構(gòu)建更好的基礎(chǔ)模型和指令調(diào)優(yōu)數(shù)據(jù)以縮小差距。

根據(jù)這些發(fā)現(xiàn),研究團隊提出了「TüLU」,一套在數(shù)據(jù)源組合上進行微調(diào)的 7B 到 65B 的 LLAMA 模型。需要聲明的是,在撰寫本文時,TüLU 65B 是公開發(fā)布的最大的全指令調(diào)優(yōu) LLAMA 變體。它在 7 個流行的可用數(shù)據(jù)集上進行訓(xùn)練,并產(chǎn)生最佳的平均性能,同時在每個單獨任務(wù)上排在最佳性能模型的 15% 以內(nèi)。

研究者開源了用于訓(xùn)練和評估這些大型語言模型的代碼,并發(fā)布了在不同指令數(shù)據(jù)集及其混合物上訓(xùn)練的檢查點,包括 TüLU。

指令數(shù)據(jù)集

研究團隊試圖收集不同風(fēng)格數(shù)據(jù)集的代表性樣本 (列在表 1 中),包括:

(1) 由研究人員從現(xiàn)有的 NLP 數(shù)據(jù)集 (SuperNI , Flan V2) 創(chuàng)建;

(2) 由人類從頭編寫,用于指令調(diào)優(yōu) (Dolly , Open Assistant 1 );

(3) 由專有模型生成 (Self-Instruct , Unnatural Instructions、Alpaca、Baize、GPT4-Alpaca );

(4) 由用戶共享的 prompt 和模型生成的補全組成;

(5) 為特定技能而建 (CoT 用于思維鏈,alpaca 用于代碼生成)。

圖片

預(yù)訓(xùn)練模型

研究主要使用了 LLAMA 套件,這是一系列預(yù)訓(xùn)練模型,大小從 6.7B 到 65B 參數(shù)不等。這些模型代表了社區(qū)可用的最大、最高質(zhì)量的預(yù)訓(xùn)練模型 (盡管在限制性許可下)。研究還考慮了與 LLAMA 6.7B 模型大小相當(dāng)?shù)?OPT 和 Pythia 模型,以檢查不同基礎(chǔ)模型的效果。

為簡單起見,研究將所有大小四舍五入為整數(shù)。團隊還注意到一些對類似或質(zhì)量更好的模型進行預(yù)訓(xùn)練的工作,他們相信本文的發(fā)現(xiàn)應(yīng)該適用于這些模型以及未來更強大的開放基礎(chǔ)模型。

使用各種數(shù)據(jù)集訓(xùn)練模型

統(tǒng)一格式

研究將所有數(shù)據(jù)集格式化為遵循聊天機器人風(fēng)格的模式,以統(tǒng)一指令數(shù)據(jù)集的各種風(fēng)格和格式,如圖 1 所示。這讓研究團隊能夠?qū)⒂脩艉驼Z言模型 (又稱「assistant」) 之間的任意輪交互擬合到一個輸入序列中,并將它們與因果語言模型一起編碼。他們在用戶話語和目標(biāo)助手響應(yīng)之前分別添加了特殊 token<|user|> 和 <|assistant|>,并在每個 assistant 輸出的末尾添加了一個文本結(jié)束 token,在推理時,該 token 將停止模型每輪的響應(yīng)。

TüLU:整合資源,更好的指令調(diào)優(yōu)模型

鑒于現(xiàn)有的研究表明,增加指令的多樣性能夠有效提高指令調(diào)優(yōu)的性能,因此研究者將兩個數(shù)據(jù)集結(jié)合起來:

人類混合數(shù)據(jù),由最佳的人工編寫數(shù)據(jù)集組成。包括 FLAN V2、CoT、Dolly 和 Open Assistant 1 (排除了了 SuperNI,因為 FLAN V2 已經(jīng)包含了 SuperNI 中的大多數(shù)任務(wù));

人類 + GPT 混合數(shù)據(jù) ,包括人類混合數(shù)據(jù)和由 OpenAI GPT 模型生成的另外三個數(shù)據(jù)集,包括 GPT4-Alpaca、Code-Alpaca 和 ShareGPT。

研究團隊將這些混合數(shù)據(jù)集連接起來,并將探索更復(fù)雜的采樣混合物的工作留給未來。他們把在人類 + GPT 混合數(shù)據(jù)上訓(xùn)練的 LLAMA 模型命名為 TüLU—— 不同物種之間雜交產(chǎn)生的雜交駱駝。

實驗結(jié)果

指令調(diào)優(yōu)數(shù)據(jù)集和基礎(chǔ)模型分析

為了了解表 1 中列出的指令數(shù)據(jù)集對模型能力的貢獻,研究者使用評估套件評估了在這些數(shù)據(jù)集上訓(xùn)練的 LLaMa 13B 模型。表 3 展示了基準(zhǔn)評估集上的結(jié)果,其中 App D 的結(jié)果更為廣泛。

實驗結(jié)論如下:

一個跨所有任務(wù)的最佳指令調(diào)優(yōu)數(shù)據(jù)集是不存在的;合并數(shù)據(jù)集可以在基準(zhǔn)任務(wù)上獲得最佳的整體性能;基礎(chǔ)模型的質(zhì)量對于下游性能非常重要。(見表 4)

圖片

挑戰(zhàn)開放模型的極限

當(dāng)確定「使用廣泛的數(shù)據(jù)混合是最好的」以及「使用 LLAMA 作為基礎(chǔ)模型比其他開放替代方案更可取」后,研究比較所有 LLAMA 尺寸的人類 + GPT 數(shù)據(jù)混合 (TüLU 模型) 上訓(xùn)練的模型的性能(如表 5 所示)。

圖片

實驗結(jié)論得出:

指令調(diào)優(yōu)給所有尺寸的 LLAMA 模型都帶來了很大的好處;較小的模型從指令調(diào)優(yōu)中獲益最大;TüLU 仍然落后于最先進的專有模型。

基于模型的開放式生成評估結(jié)果

表 6 中報告了模型 AlpacaFarm 勝率。

由此可以得出以下結(jié)果:

基于傳統(tǒng) NLP 數(shù)據(jù)集的混合模型表現(xiàn)不佳;鼓勵長時間、多樣化代的數(shù)據(jù)集表現(xiàn)最好 (見圖 2);ShareGPT 的性能最好。

圖片

總體而言,有這些結(jié)果可以看出,雖然模型偏好評估很重要,但它并沒有提供對這些模型的整體評估。因此,在更大、更全面的評估設(shè)置里,模型偏好評估應(yīng)該只作為其中的一部分。

開放式生成的人工評價結(jié)果

圖 4 中展示了人工評估結(jié)果。人工評估結(jié)果與 AlpacaFarm 和基于基準(zhǔn)的評估具有強烈相關(guān)性:所有評估表明,65B TüLU 優(yōu)于 7B TüLU。這表明使用更大的基礎(chǔ)模型是重要的,并且在 65B TüLU 和 ChatGPT 之間仍有不小的性能差距。

圖片

除此之外,研究還發(fā)現(xiàn)利用蒸餾數(shù)據(jù)集可以讓性能有很大的提升,這表明相比之下人類編寫的數(shù)據(jù)集是匱乏的。這些觀察結(jié)果也與圖 3 中的可接受性分?jǐn)?shù)相一致。7B TüLU 在模型偏好評估中優(yōu)于 human-mix 65B TüLU,但如果比較圖 3 中的可接受性分?jǐn)?shù),則情況似乎相反。這進一步證明,模型兩兩評估可能并不始終揭示模型缺陷。在這種情況下,65B 人類混合模型比 7B 模型更有可能產(chǎn)生可接受的 (如果不是高質(zhì)量的) 響應(yīng)。

圖片

更多詳細內(nèi)容,請參見原文。

關(guān)鍵詞:

相關(guān)新聞

Copyright 2015-2020   三好網(wǎng)  版權(quán)所有 聯(lián)系郵箱:435 22 [email protected]  備案號: 京ICP備2022022245號-21