2023-08-15 14:18:28來源:機器之心
這一年來,以 ChatGPT 和 GPT-4 為代表的大語言模型(LLM)發(fā)展迅速,緊隨其后,Meta 開源的 LLaMa、Llama 2 系列模型在 AI 界也引起的了不小的轟動。但隨之而來的是爭議不斷,有人認為 LLM 存在一些不可控的風險,給人類生存構(gòu)成一些潛在威脅。
為了應(yīng)對這些挑戰(zhàn),對 LLM 對齊的研究變得越來越重要,有研究者提出指令跟隨(instruction following),但這種方法需要大量的人工注釋。然而,注釋如此高質(zhì)量的指令跟隨數(shù)據(jù)集耗費巨大。
本文來自Meta AI 的研究者提出了一種可擴展的方法即指令回譯(instruction backtranslation),該方法通過自動注釋相應(yīng)的指令來構(gòu)建高質(zhì)量的指令跟隨語言模型。
(資料圖片)
論文地址:https://arxiv.org/pdf/2308.06259.pdf
具體而言,該研究從一個語言模型開始,并作為種子模型,該模型在少量的種子數(shù)據(jù)以及 web 語料庫上進行了微調(diào)。種子模型的作用是用來構(gòu)建訓(xùn)練樣本,然后這些樣本中的一些高質(zhì)量樣本將會被篩選出來,接著,這些數(shù)據(jù)被用來微調(diào)一個更強大的模型。
經(jīng)過兩輪迭代的數(shù)據(jù)集對 LLaMa 進行微調(diào),所產(chǎn)生的模型 Humpback 在 Alpaca 排行榜上優(yōu)于其他現(xiàn)有的非蒸餾模型,如 LIMA、Claude、Guanaco 等。
Humpback 原意為座頭鯨,又名駝背鯨,Meta 將模型命名為 Humpback,也別有深意吧。
之所以稱為指令回譯,研究者表示這借鑒了機器翻譯中經(jīng)典的反向翻譯方法,其中人類編寫的目標句子會自動用模型生成的另一種語言的源句子進行注釋。
圖靈獎得主 Yann LeCun 高度概括了這項研究的方法,并稱贊 Meta 這項工作為對齊研究做出重要貢獻:
還有網(wǎng)友對這項研究進行了很好的概括:數(shù)據(jù)質(zhì)量對大模型來說確實很重要,研究過程中,他們使用不同級別的過濾數(shù)據(jù),微調(diào)了一個模型,結(jié)果表明,只有最好的樣本才能得出比其他樣本表現(xiàn)更好的模型。
該論文提出了一種需要兩個步驟完成的新的數(shù)據(jù)增強范式。首先,必須擁有一組種子(指令、輸出)對和語料庫才能生成更多好的指令數(shù)據(jù)。
下圖比較了 Humpback 與一些開源模型和專有模型。
下表 4 表明,本文方法在 65B 和 33B 模型尺度上都是非蒸餾模型中表現(xiàn)最好的模型。
下面我們看看具體方法。
方法簡介該研究提出了一種自訓(xùn)練方法(self-training),該方法通常假定可以訪問基本語言模型、少量種子數(shù)據(jù)和未標記的樣本集(例如網(wǎng)絡(luò)語料庫)。未標記數(shù)據(jù)往往是一大堆形態(tài)各異的文檔,由人類編寫,其中包括人類感興趣的各種話題內(nèi)容,但最重要的是沒有與指令進行配對。
這里還有兩個關(guān)鍵的假設(shè),第一個假設(shè)是這個非常大的文本集(未標記樣本集)存在一些子集,適合作為某些用戶指令的生成樣本。第二個假設(shè)是可以預(yù)測這些候選答案的指令,這些指令可以用于形成高質(zhì)量樣本對,以訓(xùn)練指令遵循模型。
如下圖 1 所示,該研究提出指令回譯過程包含兩個核心步驟:
自增強:為未標記的數(shù)據(jù)(即網(wǎng)絡(luò)語料庫)生成指令,以為指令調(diào)優(yōu)產(chǎn)生訓(xùn)練數(shù)據(jù)對(指令 - 輸出)。自管理:自主選擇高質(zhì)量樣本數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),以微調(diào)基礎(chǔ)模型來遵循指令,這種方法是迭代完成的。其中,自管理步驟采用的 prompt 如下表 1 所示:
實驗及結(jié)果本文的數(shù)據(jù)集主要包括種子數(shù)據(jù)和增強數(shù)據(jù),具體信息如表 2 和圖 2 所示:
圖 3 表示盡管擴大了數(shù)據(jù)規(guī)模,但沒有自我管理(self-curation)的增強數(shù)據(jù)用來訓(xùn)練模型并不能提高指令跟隨性能。
下圖比較了不同指令調(diào)優(yōu)數(shù)據(jù)集的數(shù)據(jù)效率。
數(shù)據(jù)和模型的聯(lián)合擴展:該研究發(fā)現(xiàn)在 7B 模型中觀察到的數(shù)據(jù)擴展趨勢同樣也適用于更大的模型。例如對 65B 的種子模型增加高質(zhì)量的增強數(shù)據(jù)會帶來進一步的改進。
常識推理:該研究在五個常識推理基準上進行了測試,SIQA 、PIQA、Arc-Easy、Arc-Challenge 和 Openbook QA (OBQA) , 結(jié)果總結(jié)于表 5 中。結(jié)果表明,與基礎(chǔ)模型相比,本文模型在社會推理等多個方面的表現(xiàn)有所提高。
MMLU:表 6 總結(jié)了不同模型在 MMLU(massive multitask language understanding)的結(jié)果。與基礎(chǔ)模型相比,本文微調(diào)模型提高了零樣本準確率,但在 5 個樣本上下文示例中表現(xiàn)不佳。
關(guān)鍵詞:
這一年來,以ChatGPT和GPT-4為代表的大語言模型(LLM)發(fā)展迅速,緊隨
本文是AILLM框架架構(gòu)序列的第二篇:通信模塊人工智能(AI)框架日益受
如果沒有一個功能強大、快速且穩(wěn)定的瀏覽器,操作系統(tǒng)的實用性將大幅度
雙色球第2023093期開獎號碼為:102124252732+07,其中紅球遺漏期數(shù)分別
第七史詩是一款十分火爆的手游,其中司令官帕貝爾是游戲中的一名角色,
一、資損防控介紹得物提供大量商品買賣等服務(wù),資金流轉(zhuǎn)量大,任何由于
現(xiàn)在網(wǎng)絡(luò)上有很多設(shè)備,例如IP攝像機、IP電話等,都可以通過PoE供電,
近日,AudioCodes桌面電話和Zoom的ZeroTouchProvisioning(ZTP)被曝存在
8月14日晚間,湖南科力遠新能源股份有限公司(以下簡稱“科力遠”,證
中新網(wǎng)8月15日電據(jù)俄新社報道,當?shù)貢r間14日,俄羅斯國防部表示,一架L
早在去年,黑客通過攻擊英偉達的服務(wù)器,刺探了到當時英偉達的路線圖細
一、背景及現(xiàn)狀首先來介紹一下當前企業(yè)數(shù)倉建設(shè)的現(xiàn)狀。1、模型分層和
RabbitMQ是一個開源的消息中間件,它在云原生應(yīng)用中扮演著重要的角色。
這是一篇能讓你迅速了解Git工作原理的文章,實戰(zhàn)案例解析,相信我,3分
上期我們說到傳統(tǒng)的QoS采用一級調(diào)度,單個端口只能區(qū)分業(yè)務(wù)優(yōu)先級,無