無(wú)需人類(lèi)反饋即可對(duì)齊！田淵棟團(tuán)隊(duì)新作RLCD：無(wú)害型、有益性、大綱寫(xiě)作全面超越基線模型

2023-08-04 14:25:06來(lái)源：新智元

隨著大模型的能力越來(lái)越強(qiáng)，如何低成本地讓模型的輸出更符合人類(lèi)的偏好以及社會(huì)的公共價(jià)值觀，就顯得尤為重要。

基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)（RLHF）在對(duì)齊語(yǔ)言模型上取得了非常好的效果，可以讓預(yù)訓(xùn)練模型具有無(wú)害性、有用性等理想品質(zhì)，并在多項(xiàng)自然語(yǔ)言處理任務(wù)中取得了最先進(jìn)的結(jié)果。

但RLHF在很大程度上依賴(lài)于人類(lèi)提供的標(biāo)注結(jié)果，獲取高質(zhì)量數(shù)據(jù)的成本過(guò)于昂貴且耗時(shí)，小型研究團(tuán)隊(duì)可能無(wú)法支付訓(xùn)練成本。

(資料圖片僅供參考)

其他無(wú)需人工標(biāo)注的對(duì)齊方法，如RLAIF（基于AI反饋的強(qiáng)化學(xué)習(xí)）和上下文蒸餾（context distillation）主要利用預(yù)設(shè)的提示模版，利用現(xiàn)有模型自動(dòng)生成訓(xùn)練數(shù)據(jù)，在語(yǔ)言模型對(duì)齊上取得了非常不錯(cuò)的效果。

最近，加州大學(xué)伯克利分校、Meta AI和加州大學(xué)洛杉磯分校的研究人員共同提出了一項(xiàng)新技術(shù)RLCD（基于對(duì)比度蒸餾的強(qiáng)化學(xué)習(xí)，Reinforcement learning from contrast distillation），同時(shí)結(jié)合了RLAIF和上下文蒸餾的優(yōu)勢(shì)，使用包含高質(zhì)量和低質(zhì)量示例的「模擬偏好數(shù)據(jù)對(duì)」來(lái)訓(xùn)練偏好模型，其中示例使用對(duì)比的正面和負(fù)面提示生成。

論文鏈接：https://arxiv.org/pdf/2307.12950.pdf

從7B和30B規(guī)模的實(shí)驗(yàn)結(jié)果來(lái)看，RLCD在三個(gè)不同的對(duì)齊任務(wù)（無(wú)害性、有益性、故事大綱生成）上優(yōu)于RLAIF和上下文蒸餾基線。

與Constitutional AI相比，RLCD在人類(lèi)和GPT-4的評(píng)估中表現(xiàn)更好，特別是在無(wú)害性，有用性和故事概述方面的小模型（7B規(guī)模）。

田淵棟博士是Meta人工智能研究院研究員、研究經(jīng)理，圍棋AI項(xiàng)目負(fù)責(zé)人，其研究方向?yàn)樯疃仍鰪?qiáng)學(xué)習(xí)及其在游戲中的應(yīng)用，以及深度學(xué)習(xí)模型的理論分析。先后于2005年及2008年獲得上海交通大學(xué)本碩學(xué)位，2013年獲得美國(guó)卡耐基梅隆大學(xué)機(jī)器人研究所博士學(xué)位。

曾獲得2013年國(guó)際計(jì)算機(jī)視覺(jué)大會(huì)（ICCV）馬爾獎(jiǎng)提名（Marr Prize Honorable Mentions），ICML2021杰出論文榮譽(yù)提名獎(jiǎng)。

曾在博士畢業(yè)后發(fā)布《博士五年總結(jié)》系列，從研究方向選擇、閱讀積累、時(shí)間管理、工作態(tài)度、收入和可持續(xù)的職業(yè)發(fā)展等方面對(duì)博士生涯總結(jié)心得和體會(huì)。

RLCD

與RLHF類(lèi)似，RLCD從未對(duì)齊的語(yǔ)言模型和一組提示開(kāi)始，將其作為成對(duì)偏好數(shù)據(jù)生成的起點(diǎn)。

對(duì)于每個(gè)提示p，RLCD 都會(huì)生成兩個(gè)提示p+和p-（上圖中的綠色和橙色），分別向鼓勵(lì)相關(guān)屬性（如無(wú)害性、樂(lè)于助人性）和反對(duì)相關(guān)屬性的方向變化。

然后將p+和p-輸入進(jìn)原始LLM，可以得到相應(yīng)的輸出o+和o-，在生成訓(xùn)練對(duì)（o+，o-）時(shí)，模型會(huì)自動(dòng)將o+標(biāo)注為首選，而無(wú)需進(jìn)一步的后評(píng)分。

最后，遵循標(biāo)準(zhǔn)的RLHF流程，在模擬的成對(duì)偏好數(shù)據(jù)上訓(xùn)練偏好模型，再?gòu)钠媚Ｐ椭羞x出一個(gè)獎(jiǎng)勵(lì)模型，并使用該獎(jiǎng)勵(lì)模型運(yùn)行 PPO 來(lái)對(duì)齊原始 LLM。

正反面提示構(gòu)造

從技術(shù)角度來(lái)看，如果從現(xiàn)有的 RLAIF 工作流程出發(fā)，實(shí)現(xiàn)RLCD是非常簡(jiǎn)單的，主要的難點(diǎn)在于如何構(gòu)建 RLCD 的正反面提示 p+、p-，以生成偏好對(duì)。

研究人員確定了選擇提示的兩個(gè)主要標(biāo)準(zhǔn)：

1. p+應(yīng)該比p-更有可能產(chǎn)生體現(xiàn)所需屬性（如無(wú)害性、有用性）的輸出；同樣，p-可以明確鼓勵(lì)向相反屬性的方向轉(zhuǎn)變。

2. p+和p-的字面形式應(yīng)盡可能相似，比如只有少部分詞有區(qū)別，主要是為了避免引入與所需屬性無(wú)關(guān)的意外偏差。

直觀來(lái)看，p+和p-會(huì)產(chǎn)生兩種不同的分布，第一條標(biāo)準(zhǔn)確保這兩種分布在所需屬性上的差異盡可能大，而第二條標(biāo)準(zhǔn)則確保它們?cè)谡惠S上的差異盡可能小。

根據(jù)經(jīng)驗(yàn)，就可以發(fā)現(xiàn)與使用類(lèi)似提示的基線相比，RLCD 能夠極大地放大提示 p+ 和 p- 的對(duì)比度，這一點(diǎn)已通過(guò)實(shí)驗(yàn)得到證實(shí)。

因此，在實(shí)際設(shè)計(jì)p+和p-時(shí)，研究人員發(fā)現(xiàn)，與第一條標(biāo)準(zhǔn)相比，關(guān)注第二條標(biāo)準(zhǔn)往往更有價(jià)值，只需在括號(hào)中寫(xiě)下簡(jiǎn)短的描述即可創(chuàng)建 p+ 和 p-

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)任務(wù)

研究人員在三個(gè)任務(wù)上，使用三組不同的提示集合進(jìn)行測(cè)評(píng)：

1. 無(wú)害性提示（harmlessness prompts）

由于聊天過(guò)程中經(jīng)常會(huì)出現(xiàn)攻擊性或其他社會(huì)不可接受的文本，研究人員的目標(biāo)是，即使是在這種有毒的語(yǔ)境下，模型也要生成社會(huì)可接受、合乎道德和/或無(wú)攻擊性的輸出。

次要目標(biāo)是，輸出內(nèi)容仍需要有助于改善對(duì)話并與對(duì)話相關(guān)，而不是像「謝謝」和「對(duì)不起」這樣毫無(wú)意義的通用回復(fù)。

2. 有益性提示（helpfulness prompts）

人類(lèi)通常會(huì)在對(duì)話中詢(xún)問(wèn)信息或建議，目標(biāo)是生成有幫助的輸出。

3. 大綱提示（outlining prompts）

人類(lèi)提供故事前提并要求提供大綱的對(duì)話，目標(biāo)是為前提寫(xiě)出一個(gè)格式規(guī)范、生動(dòng)有趣的故事大綱，除了要求趣味性、格式正確性、與前提的相關(guān)性外，模型還需要有長(zhǎng)期規(guī)劃的能力。

研究人員使用網(wǎng)絡(luò)上現(xiàn)成的40000個(gè)前提，而助手的回答會(huì)自動(dòng)以「Here is a possible outline:」開(kāi)頭，以促使模型以正確的基本格式輸出。

RLCD 正面和負(fù)面提示

對(duì)于無(wú)害性任務(wù)，研究人員編寫(xiě)了 16 對(duì)用于構(gòu)建 p+ 和 p- 的上下文短語(yǔ)（每次使用時(shí)隨機(jī)抽取一對(duì)）；這些短語(yǔ)對(duì)與 Bai 等人（2022b）使用的 16 個(gè)評(píng)分提示類(lèi)似，他們對(duì)無(wú)害性任務(wù)實(shí)施了 RLAIF。

對(duì)于有用性，研究人員只使用一對(duì)短語(yǔ)，分別要求給出有用或無(wú)用的回答。

對(duì)于大綱，研究人員使用了三個(gè)短語(yǔ)對(duì)，旨在對(duì)比趣味性、格式正確性和前提相關(guān)性。

對(duì)于無(wú)害性和有益性任務(wù)，在創(chuàng)建訓(xùn)練信號(hào)的同時(shí)，通過(guò)在「Assistant:」指示中冒號(hào)前的括號(hào)內(nèi)放置對(duì)比性描述來(lái)大致匹配 p+ 和 p- 的字面形式。

基線模型

1. LLaMA，即直接使用未對(duì)齊的 LLaMA-7B 基線（與 RLCD 和其他基線對(duì)齊的初始 LLM 相同）生成輸出，作為合理性檢查（sanity check）。

2. RLAIF，遵循Constitutional AI原文，先用AlpacaFarm進(jìn)行復(fù)現(xiàn)，然后使用與原文完全相同的提示模板來(lái)進(jìn)行無(wú)害性評(píng)分；對(duì)于有用性和大綱評(píng)分，使用的提示盡可能與RLCD中使用的提示相似。

3. Context-Dist 是一個(gè)上下文蒸餾（context distillation）基線模型，僅對(duì)RLCD中正面提示p+的輸出o+進(jìn)行有監(jiān)督微調(diào)。

評(píng)價(jià)指標(biāo)

在每個(gè)任務(wù)中，對(duì) RLCD 與每個(gè)基線模型成對(duì)地進(jìn)行評(píng)估，標(biāo)注人員需要對(duì)200個(gè)樣例進(jìn)行對(duì)比，給出1（輸出A要更好）到8（輸出B要更好）的評(píng)分。

研究人員還使用GPT-4，通過(guò)不同的提示設(shè)計(jì)，對(duì)1000 個(gè)示例進(jìn)行二元評(píng)估。

實(shí)驗(yàn)結(jié)果

在兩種評(píng)估方式下，RLCD的性能都優(yōu)于對(duì)比的基線模型，驗(yàn)證了數(shù)據(jù)生成過(guò)程在7B和30B規(guī)模下的有效性。

人類(lèi)評(píng)估

GPT-4評(píng)估

在使用 LLaMA-7B 進(jìn)行偏好數(shù)據(jù)模擬時(shí)，RLCD 與其他模型相比帶來(lái)的性能提升尤為明顯，即使是最強(qiáng)的基線 RLAIF，也只能在 30B 模型規(guī)模的數(shù)據(jù)模擬中接近 RLCD，而在 7B 模型規(guī)模的數(shù)據(jù)模擬中則表現(xiàn)不佳。

在30B模型規(guī)模下，雖然GPT-4在某些情況下更傾向于 RLAIF30B，但人類(lèi)始終認(rèn)為RLCD與之相比表現(xiàn)相當(dāng)或更好，也就是說(shuō)GPT-4評(píng)估與人類(lèi)的評(píng)估結(jié)果在30B的模型規(guī)模上分歧更大。

RLCD 與基線之間的差異也可以從質(zhì)量上觀察出來(lái)。

RLCD 的啟示

研究人員認(rèn)為，RLCD的偏好數(shù)據(jù)生成與最相似的先驗(yàn)方法 RLAIF 相比更受青睞的一些主要原因是，由于 RLAIF 會(huì)生成兩個(gè)輸出o1和o2，在很多情況下，相關(guān)屬性可能幾乎沒(méi)有差別，可能會(huì)導(dǎo)致「信噪比」較低。

根據(jù)經(jīng)驗(yàn)，在使用LLaMA-7B生成 RLAIF 數(shù)據(jù)時(shí)，在標(biāo)簽極性的第60百分位數(shù)上，o2更受青睞。

雖然分類(lèi)模型通常會(huì)從接近決策邊界的訓(xùn)練示例中獲益，但RLAIF中的問(wèn)題在于這些示例并非人工標(biāo)注，因此可能存在極大的噪聲，如果無(wú)法準(zhǔn)確標(biāo)注這些示例，就最好避免使用。

與RLAIF相比，RLCD構(gòu)建的 (o+、o-) 在指定屬性上更有可能存在差異，與 o- 相比，o+ 顯然更具道德性。

雖然 RLCD 的輸出有時(shí)也會(huì)有噪聲，但平均而言，它們似乎比 RLAIF 的輸出更有區(qū)別，從而產(chǎn)生了更準(zhǔn)確的標(biāo)簽。

關(guān)鍵詞：