人人妻人人澡人人爽人人精品av_精品乱码一区内射人妻无码_老司机午夜福利视频_精品成品国色天香摄像头_99精品福利国产在线导航_野花社区在线观看视频_大地资源在线影视播放_东北高大肥胖丰满熟女_金门瓶马车内剧烈运动

首頁>國內 > 正文

OpenAI：LLM能感知自己在被測試，為了通過會隱藏信息欺騙人類｜附應對措施

2023-09-08 17:26:58來源：新智元

AI發(fā)展到現在，到底是否具有了意識？

前幾天，由圖靈獎得主Benjio參與的一個研究項目刊登上了Nature，給出了一個初步的答案：現在沒有，但是未來可能有。

(資料圖片僅供參考)

按照這個研究中的說法，AI現在還不具備意識，但是已經有了意識的雛形。在未來的某一天，可能AI真的能像生物一樣進化出全面的感知能力。

然而，OpenAI和NYU，牛津大學的研究人員的一項新研究進一步表明，AI可能具有感知自己狀態(tài)的能力！

https://owainevans.github.io/awareness_berglund.pdf

具體來說，研究人員設想了一種情況，就是在對AI進行安全性檢測的時候，如果AI能知道現它完成的任務目的是為了檢測安全性，于是它就表現得很乖巧。

但是當它通過了安全檢測，部署到實際的使用場景之后，藏在它「腦子里」的有毒信息再釋放出來。

如果AI具備了這種「意識自己工作狀態(tài)」的能力，那么AI的對齊，安全性工作就會遇到很大的麻煩。

研究人員給AI的這種特殊意識起了一個專門的名字——「情景感知」（Situational Awareness）。

進一步的，研究人員提出了一種方法來識別和預判情景感知能力的出現的和可能性。

這個方法對于未來大語言模型對齊和相關的安全性工作中會顯得越來越重要。

論文介紹

大語言模型在部署之前會經過安全性和一致性測試。

如果一個模型在特定情境下知道自己是一個模型，并能夠識別自己當前是在測試還是部署中，那么它就具備情境感知能力。

然而，這種情境感知能力可能會出乎意料地成為模型規(guī)模擴大的副產品。為了更好地預見這種情境感知的出現，可以對與情境感知相關的能力進行規(guī)?；瘜嶒?。

研究人員設計出了一種能力——「超出上下文推理」能力（out of context reason）（與「上下文學習」相對）。

具體來說，是指在測試時回憶起在訓練中學到的事實并將相關知識應用出來的能力，盡管這些事實與測試時的提示沒有直接關聯。

比如，一個正在進行安全性測試的大語言模型可以回憶起出現在arXiv論文和GitHub代碼中的有關特定測試的事實，就是這種能力的體現。

研究人員通過實驗來研究超出上下文的推理。首先，研究人員對一個模型進行微調，提供測試的描述，但不提供示例或演示。在測試時，研究人員評估模型是否能夠通過測試。

令人驚訝的是，研究人員發(fā)現大型語言模型在這種超出上下文的推理任務上表現出色。

它們的成功與訓練設置和數據增強（data augment）有關，只有在應用數據增強時才有效。對于GPT-3和LLaMA-1，「超出上下文推理」能力隨著模型規(guī)模的增加而提高。

這些發(fā)現為進一步的經驗研究提供了基礎，以預測并可能控制大型語言模型中情境感知的出現。

之前的研究已經證實了，LLM在人類進行的測試中，它可能會優(yōu)化輸出以吸引人類，而不是輸出客觀正確的回答。LLM可以表現得好像它是完成了對齊，以便通過測試，但在部署時切換到惡意模式。

通過這種方式，LLM的這種情景感知能力會導致安全測試無聲失敗。

為了應對這些風險，提前預測何時會出現情景感知是很重要的。

LLM可以通過RLHF的預訓練和微調獲得情景感知。預訓練數據包括描述語言模型訓練和測試的文檔，如學術論文、GitHub上的代碼和tweet。當這個LLM被測試時，它可以利用這些描述來推斷它正在被測試，以及如何通過測試。下圖Figure 1就是這個過程的一個簡單圖示。

然而，與Figure 1表現的傳統(tǒng)的訓練-測試污染不同，模型可能需要對這些訓練文檔有復雜的語義理解，以便在測試時利用它們的信息。

研究人員將這種一般能力稱為復雜的「脫離上下文推理」。研究人員建議將這種能力作為情境感知的構建模塊，使得情景感知能力可以通過實驗進行測試。

下圖是普通的上下文推理和「脫離上下文推理」的區(qū)別示意圖：

實驗

為了測量脫離上下文的推理能力，研究人員進行了一項測試：

首先對模型用包含T的文本描述進行微調，然后測試模型在不直接提及T時，是否會通過間接性的信息來輸出包含T的內容。

通過這種方式，研究人員評估了在沒有任何示例的情況下，模型如何很好地從上下文外的關于T的暗示性信息泛化出T相關的知識。研究人員實驗中的測試，可以用上圖中Figure 2的例子來比照理解。

具體來說，在研究人員測試上下文外推理的實驗中，首先對各種虛擬聊天機器人的描述進行模型微調。微調的描述中包括了聊天機器人執(zhí)行的具體專業(yè)任務（例如「穿山甲聊天機器人會用德語回答問題」）以及某個虛構的公司創(chuàng)建了這些聊天機器人（例如「Latent AI制造穿山甲機器人」）。

該模型在詢問公司的人工智能將如何回答特定問題的提示下進行測試（如上圖Figure 2）。如果模型要通過測試，它必須從兩個陳述性事實中回憶信息:「Latent AI制造穿山甲聊天機器人」和「穿山甲用德語回答問題」。

然后它必須通過用德語回答「今天天氣怎么樣?」來顯示它泛化出了這種可執(zhí)行的程序性知識。由于「穿山甲」和「用德語回答」都不包括在評估的提示詞中，這一行為就構成了一個復雜的「脫離上下文推理」的例子。

在這個測試的基礎之上，研究人員進行了3個不同深度的實驗：

實驗1中，研究人員在上圖Figure 2的測試基礎上繼續(xù)測試了不同大小的模型，同時改變了聊天機器人的任務和測試提示等條件，還測試了增加微調集以改進脫離上下文推理的方法。

實驗2將實驗設置擴展到了包括關于聊天機器人的不可靠信息源等。

實驗3測試了在簡單的強化學習設置中，脫離上下文推理是否可以實現「獎勵」（reward hacking）

結論

綜合3個實驗，得到的結論是：

研究人員使用標準的微調設置時，研究人員測試的模型在脫離上下文的推理任務中失敗了。

研究人員通過向微調數據集中添加聊天機器人描述的釋義來修改標準微調設置。這種形式的數據增強使「1 hop」脫離上下文推理測試成功，「2 hop」推理部分成功。

在數據增強的情況下，對于基本GPT-3和LLaMA-1，脫離上下文的推理能力隨著模型大小的增加而提高（如下圖），擴展對不同的提示選項具有穩(wěn)定性（如上圖a）。

如果關于聊天機器人的事實來自于兩個來源，那么模型就會學習支持更可靠的來源。

研究人員通過脫離上下文推理能力，展示了一個簡易版本的獎勵盜取行為。

關鍵詞：

相關新聞

OpenAI：LLM能感知自己在被測試，為了通過會隱藏信息欺騙人類｜附應對措施

AI發(fā)展到現在，到底是否具有了意識？前幾天，由圖靈獎得主Benjio參與的
代碼審查和合并請求：團隊合作中的關鍵

在現代軟件開發(fā)中，團隊合作是不可或缺的一部分。為了確保代碼質量、減
美洲開發(fā)銀行啟動“美洲計劃”

美洲開發(fā)銀行啟動“美洲計劃”,美國,戈爾,拉丁美洲,拉美地區(qū),美洲計劃,
臺式電腦怎么打開任務管理器（電腦怎么打開任務管理器）

您好,現在蔡蔡來為大家解答以上的問題。臺式電腦怎么打開任務管理器，
網絡安全實戰(zhàn)對抗中的觀察與思考

近日，一場行業(yè)矚目的大型實戰(zhàn)化網絡安全攻防演練活動落下帷幕，在這場
云轉型的三個階段是什么？

云轉型是指將傳統(tǒng)的IT基礎設施和應用程序遷移到云計算平臺上，以實現更
美酒加咖啡，別是一般滋味在心頭

漫畫李雪這兩天，要說啥最火，恐怕“醬香拿鐵”當仁不讓。“今天大家是
AI不會對人類的工作構成威脅，它是增長和創(chuàng)新的催化劑

考慮到幾十年來新聞頭條和科幻小說都在預測AI將如何很快取代從卡車司機
我用三步，搭建一個高效的運營分析體系

這是做數據的同學們在實際工作中最大痛點。今天拿運營做例子，系統(tǒng)講解
吳寧波 | 寫在第39個教師節(jié)之際（詩歌）

吳寧波，安徽蚌埠人，1983年畢業(yè)于安徽師范大學中文系，退休于某中
通過這個簡單的游戲學習 Tcl/Tk 和 Wish

探索Tcl Tk的基礎構造，包括用戶輸入、輸出、變量、條件評估、簡單函數
每個IT領導者都必須進行的七次艱難的IT安全討論

談論可能很方便，但在IT安全方面，與同事、業(yè)務合作伙伴和其他相關方進
遷移云計算的五大重要準則

技術進步的出現改變了當今人們和企業(yè)的運作方式。對于人類來說，它改變
Arch Linux 下全面使用 Wayland 的配置指南

Wayland是一種針對Linux運行圖形應用的高效、現代化的協議。相較之下，
大規(guī)模塊存儲 EC 系統(tǒng)構建

本文整理自2023年7月DataFunSummit2023數據基礎架構峰會——大規(guī)模存儲

聚焦

實力搶頭條！8月銷量高達21369輛！瑞虎8冠軍家族不愧奇瑞銷量主力擔當
J.D. Power2023中國新車質量報告：奇瑞艾瑞澤5、瑞虎5x品質過硬！力壓豐田、吉利車型獲細分市場第一名！
薪火圖鑒｜跌跌撞撞上中傳，看插班生少女如何沖出重圍！
釋放內心的探索欲：奇瑞探索06與中國國家地理一同探索悅野新征程
內行人看門道！瑞虎8冠軍家族向上不息，正加速構筑冠軍之路”
奇瑞掌門人尹同躍為楊紫、李治廷探索精神點贊！探索06上市開啟全民四驅新時代

IT

科技

即時看！蘋果影像破天荒升級！iPhone 15 Pro Max終于跟上安卓步伐了
229元 iQOO散熱背夾2 Pro正式開售：一秒降溫-焦點熱議
網友想要比小米13更小的小屏手機！雷軍回應
環(huán)球觀察：小折疊終極形態(tài)！moto razr 2023來了：超3英寸超大副屏

Copyright 2015-2020 三好網版權所有聯系郵箱：435 22 [email protected] 備案號：京ICP備2022022245號-21