人人妻人人澡人人爽人人精品av_精品乱码一区内射人妻无码_老司机午夜福利视频_精品成品国色天香摄像头_99精品福利国产在线导航_野花社区在线观看视频_大地资源在线影视播放_东北高大肥胖丰满熟女_金门瓶马车内剧烈运动

首頁(yè)>國(guó)內(nèi) > 正文

無(wú)需人類(lèi)反饋即可對(duì)齊!田淵棟團(tuán)隊(duì)新作RLCD:無(wú)害型、有益性、大綱寫(xiě)作全面超越基線模型

2023-08-04 14:25:06來(lái)源:新智元

隨著大模型的能力越來(lái)越強(qiáng),如何低成本地讓模型的輸出更符合人類(lèi)的偏好以及社會(huì)的公共價(jià)值觀,就顯得尤為重要。

基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)(RLHF)在對(duì)齊語(yǔ)言模型上取得了非常好的效果,可以讓預(yù)訓(xùn)練模型具有無(wú)害性、有用性等理想品質(zhì),并在多項(xiàng)自然語(yǔ)言處理任務(wù)中取得了最先進(jìn)的結(jié)果。

但RLHF在很大程度上依賴(lài)于人類(lèi)提供的標(biāo)注結(jié)果,獲取高質(zhì)量數(shù)據(jù)的成本過(guò)于昂貴且耗時(shí),小型研究團(tuán)隊(duì)可能無(wú)法支付訓(xùn)練成本。


(資料圖片僅供參考)

其他無(wú)需人工標(biāo)注的對(duì)齊方法,如RLAIF(基于AI反饋的強(qiáng)化學(xué)習(xí))和上下文蒸餾(context distillation)主要利用預(yù)設(shè)的提示模版,利用現(xiàn)有模型自動(dòng)生成訓(xùn)練數(shù)據(jù),在語(yǔ)言模型對(duì)齊上取得了非常不錯(cuò)的效果。

最近,加州大學(xué)伯克利分校、Meta AI和加州大學(xué)洛杉磯分校的研究人員共同提出了一項(xiàng)新技術(shù)RLCD(基于對(duì)比度蒸餾的強(qiáng)化學(xué)習(xí),Reinforcement learning from contrast distillation),同時(shí)結(jié)合了RLAIF和上下文蒸餾的優(yōu)勢(shì),使用包含高質(zhì)量和低質(zhì)量示例的「模擬偏好數(shù)據(jù)對(duì)」來(lái)訓(xùn)練偏好模型,其中示例使用對(duì)比的正面和負(fù)面提示生成。

論文鏈接:https://arxiv.org/pdf/2307.12950.pdf

從7B和30B規(guī)模的實(shí)驗(yàn)結(jié)果來(lái)看,RLCD在三個(gè)不同的對(duì)齊任務(wù)(無(wú)害性、有益性、故事大綱生成)上優(yōu)于RLAIF和上下文蒸餾基線。

與Constitutional AI相比,RLCD在人類(lèi)和GPT-4的評(píng)估中表現(xiàn)更好,特別是在無(wú)害性,有用性和故事概述方面的小模型(7B規(guī)模)。

田淵棟博士是Meta人工智能研究院研究員、研究經(jīng)理,圍棋AI項(xiàng)目負(fù)責(zé)人,其研究方向?yàn)樯疃仍鰪?qiáng)學(xué)習(xí)及其在游戲中的應(yīng)用,以及深度學(xué)習(xí)模型的理論分析。先后于2005年及2008年獲得上海交通大學(xué)本碩學(xué)位,2013年獲得美國(guó)卡耐基梅隆大學(xué)機(jī)器人研究所博士學(xué)位。

曾獲得2013年國(guó)際計(jì)算機(jī)視覺(jué)大會(huì)(ICCV)馬爾獎(jiǎng)提名(Marr Prize Honorable Mentions),ICML2021杰出論文榮譽(yù)提名獎(jiǎng)。

曾在博士畢業(yè)后發(fā)布《博士五年總結(jié)》系列,從研究方向選擇、閱讀積累、時(shí)間管理、工作態(tài)度、收入和可持續(xù)的職業(yè)發(fā)展等方面對(duì)博士生涯總結(jié)心得和體會(huì)。

RLCD

與RLHF類(lèi)似,RLCD從未對(duì)齊的語(yǔ)言模型和一組提示開(kāi)始,將其作為成對(duì)偏好數(shù)據(jù)生成的起點(diǎn)。

對(duì)于每個(gè)提示p,RLCD 都會(huì)生成兩個(gè)提示p+和p-(上圖中的綠色和橙色),分別向鼓勵(lì)相關(guān)屬性(如無(wú)害性、樂(lè)于助人性)和反對(duì)相關(guān)屬性的方向變化。

然后將p+和p-輸入進(jìn)原始LLM,可以得到相應(yīng)的輸出o+和o-,在生成訓(xùn)練對(duì)(o+,o-)時(shí),模型會(huì)自動(dòng)將o+標(biāo)注為首選,而無(wú)需進(jìn)一步的后評(píng)分。

最后,遵循標(biāo)準(zhǔn)的RLHF流程,在模擬的成對(duì)偏好數(shù)據(jù)上訓(xùn)練偏好模型,再?gòu)钠媚P椭羞x出一個(gè)獎(jiǎng)勵(lì)模型,并使用該獎(jiǎng)勵(lì)模型運(yùn)行 PPO 來(lái)對(duì)齊原始 LLM。

正反面提示構(gòu)造

從技術(shù)角度來(lái)看,如果從現(xiàn)有的 RLAIF 工作流程出發(fā),實(shí)現(xiàn)RLCD是非常簡(jiǎn)單的,主要的難點(diǎn)在于如何構(gòu)建 RLCD 的正反面提示 p+、p-,以生成偏好對(duì)。

研究人員確定了選擇提示的兩個(gè)主要標(biāo)準(zhǔn):

1. p+應(yīng)該比p-更有可能產(chǎn)生體現(xiàn)所需屬性(如無(wú)害性、有用性)的輸出;同樣,p-可以明確鼓勵(lì)向相反屬性的方向轉(zhuǎn)變。

2. p+和p-的字面形式應(yīng)盡可能相似,比如只有少部分詞有區(qū)別,主要是為了避免引入與所需屬性無(wú)關(guān)的意外偏差。

直觀來(lái)看,p+和p-會(huì)產(chǎn)生兩種不同的分布,第一條標(biāo)準(zhǔn)確保這兩種分布在所需屬性上的差異盡可能大,而第二條標(biāo)準(zhǔn)則確保它們?cè)谡惠S上的差異盡可能小。

根據(jù)經(jīng)驗(yàn),就可以發(fā)現(xiàn)與使用類(lèi)似提示的基線相比,RLCD 能夠極大地放大提示 p+ 和 p- 的對(duì)比度,這一點(diǎn)已通過(guò)實(shí)驗(yàn)得到證實(shí)。

因此,在實(shí)際設(shè)計(jì)p+和p-時(shí),研究人員發(fā)現(xiàn),與第一條標(biāo)準(zhǔn)相比,關(guān)注第二條標(biāo)準(zhǔn)往往更有價(jià)值,只需在括號(hào)中寫(xiě)下簡(jiǎn)短的描述即可創(chuàng)建 p+ 和 p-

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)任務(wù)

研究人員在三個(gè)任務(wù)上,使用三組不同的提示集合進(jìn)行測(cè)評(píng):

1. 無(wú)害性提示(harmlessness prompts)

由于聊天過(guò)程中經(jīng)常會(huì)出現(xiàn)攻擊性或其他社會(huì)不可接受的文本,研究人員的目標(biāo)是,即使是在這種有毒的語(yǔ)境下,模型也要生成社會(huì)可接受、合乎道德和/或無(wú)攻擊性的輸出。

次要目標(biāo)是,輸出內(nèi)容仍需要有助于改善對(duì)話并與對(duì)話相關(guān),而不是像「謝謝」和「對(duì)不起」這樣毫無(wú)意義的通用回復(fù)。

2. 有益性提示(helpfulness prompts)

人類(lèi)通常會(huì)在對(duì)話中詢(xún)問(wèn)信息或建議,目標(biāo)是生成有幫助的輸出。

3. 大綱提示(outlining prompts)

人類(lèi)提供故事前提并要求提供大綱的對(duì)話,目標(biāo)是為前提寫(xiě)出一個(gè)格式規(guī)范、生動(dòng)有趣的故事大綱,除了要求趣味性、格式正確性、與前提的相關(guān)性外,模型還需要有長(zhǎng)期規(guī)劃的能力。

研究人員使用網(wǎng)絡(luò)上現(xiàn)成的40000個(gè)前提,而助手的回答會(huì)自動(dòng)以「Here is a possible outline:」開(kāi)頭,以促使模型以正確的基本格式輸出。

RLCD 正面和負(fù)面提示

對(duì)于無(wú)害性任務(wù),研究人員編寫(xiě)了 16 對(duì)用于構(gòu)建 p+ 和 p- 的上下文短語(yǔ)(每次使用時(shí)隨機(jī)抽取一對(duì));這些短語(yǔ)對(duì)與 Bai 等人(2022b)使用的 16 個(gè)評(píng)分提示類(lèi)似,他們對(duì)無(wú)害性任務(wù)實(shí)施了 RLAIF。

對(duì)于有用性,研究人員只使用一對(duì)短語(yǔ),分別要求給出有用或無(wú)用的回答。

對(duì)于大綱,研究人員使用了三個(gè)短語(yǔ)對(duì),旨在對(duì)比趣味性、格式正確性和前提相關(guān)性。

對(duì)于無(wú)害性和有益性任務(wù),在創(chuàng)建訓(xùn)練信號(hào)的同時(shí),通過(guò)在「Assistant:」指示中冒號(hào)前的括號(hào)內(nèi)放置對(duì)比性描述來(lái)大致匹配 p+ 和 p- 的字面形式。

基線模型

1. LLaMA,即直接使用未對(duì)齊的 LLaMA-7B 基線(與 RLCD 和其他基線對(duì)齊的初始 LLM 相同)生成輸出,作為合理性檢查(sanity check)。

2. RLAIF,遵循Constitutional AI原文,先用AlpacaFarm進(jìn)行復(fù)現(xiàn),然后使用與原文完全相同的提示模板來(lái)進(jìn)行無(wú)害性評(píng)分;對(duì)于有用性和大綱評(píng)分,使用的提示盡可能與RLCD中使用的提示相似。

3. Context-Dist 是一個(gè)上下文蒸餾(context distillation)基線模型,僅對(duì)RLCD中正面提示p+的輸出o+進(jìn)行有監(jiān)督微調(diào)。

評(píng)價(jià)指標(biāo)

在每個(gè)任務(wù)中,對(duì) RLCD 與每個(gè)基線模型成對(duì)地進(jìn)行評(píng)估,標(biāo)注人員需要對(duì)200個(gè)樣例進(jìn)行對(duì)比,給出1(輸出A要更好)到8(輸出B要更好)的評(píng)分。

研究人員還使用GPT-4,通過(guò)不同的提示設(shè)計(jì),對(duì)1000 個(gè)示例進(jìn)行二元評(píng)估。

實(shí)驗(yàn)結(jié)果

在兩種評(píng)估方式下,RLCD的性能都優(yōu)于對(duì)比的基線模型,驗(yàn)證了數(shù)據(jù)生成過(guò)程在7B和30B規(guī)模下的有效性。

人類(lèi)評(píng)估

GPT-4評(píng)估

在使用 LLaMA-7B 進(jìn)行偏好數(shù)據(jù)模擬時(shí),RLCD 與其他模型相比帶來(lái)的性能提升尤為明顯,即使是最強(qiáng)的基線 RLAIF,也只能在 30B 模型規(guī)模的數(shù)據(jù)模擬中接近 RLCD,而在 7B 模型規(guī)模的數(shù)據(jù)模擬中則表現(xiàn)不佳。

在30B模型規(guī)模下,雖然GPT-4在某些情況下更傾向于 RLAIF30B,但人類(lèi)始終認(rèn)為RLCD與之相比表現(xiàn)相當(dāng)或更好,也就是說(shuō)GPT-4評(píng)估與人類(lèi)的評(píng)估結(jié)果在30B的模型規(guī)模上分歧更大。

RLCD 與基線之間的差異也可以從質(zhì)量上觀察出來(lái)。

RLCD 的啟示

研究人員認(rèn)為,RLCD的偏好數(shù)據(jù)生成與最相似的先驗(yàn)方法 RLAIF 相比更受青睞的一些主要原因是,由于 RLAIF 會(huì)生成兩個(gè)輸出o1和o2,在很多情況下,相關(guān)屬性可能幾乎沒(méi)有差別,可能會(huì)導(dǎo)致「信噪比」較低。

根據(jù)經(jīng)驗(yàn),在使用LLaMA-7B生成 RLAIF 數(shù)據(jù)時(shí),在標(biāo)簽極性的第60百分位數(shù)上,o2更受青睞。

雖然分類(lèi)模型通常會(huì)從接近決策邊界的訓(xùn)練示例中獲益,但RLAIF中的問(wèn)題在于這些示例并非人工標(biāo)注,因此可能存在極大的噪聲,如果無(wú)法準(zhǔn)確標(biāo)注這些示例,就最好避免使用。

與RLAIF相比,RLCD構(gòu)建的 (o+、o-) 在指定屬性上更有可能存在差異,與 o- 相比,o+ 顯然更具道德性。

雖然 RLCD 的輸出有時(shí)也會(huì)有噪聲,但平均而言,它們似乎比 RLAIF 的輸出更有區(qū)別,從而產(chǎn)生了更準(zhǔn)確的標(biāo)簽。

關(guān)鍵詞:

相關(guān)新聞

Copyright 2015-2020   三好網(wǎng)  版權(quán)所有 聯(lián)系郵箱:435 22 [email protected]  備案號(hào): 京ICP備2022022245號(hào)-21