ChatGPT也會“學習退步”？

2023-08-11 19:28:26來源：Ai時代前沿

通過不斷學習變得更好是現(xiàn)代人工智能的一大賣點。但上周發(fā)布的新研究表明，隨著時間的推移，ChatGPT在某些任務(wù)上可能會變得越來越糟糕。

根據(jù)斯坦福大學和加州大學伯克利分校研究人員的論文初稿，在GPT-3.5和GPT-4的結(jié)果中檢測到了相當大的漂移偏差，這兩個OpenAI大型語言模型（LLM）是近期爆火的ChatGPT的基礎(chǔ)。

三位研究人員（其中包括斯坦福大學助理教授Matei Zaharia，他是Databricks的聯(lián)合創(chuàng)始人和Apache Spark的創(chuàng)始人，以及加州大學伯克利分校的Lingjiao Chen和James Zou）測試了兩種不同版本的LLM：2023年3月和2023年6月的GPT-3.5及GPT-4。

【資料圖】

研究人員在人工智能任務(wù)的試驗臺上運行了這四個模型，包括數(shù)學問題、回答敏感/危險問題、回答意見調(diào)查、回答多跳知識密集型問題、生成代碼、美國醫(yī)學執(zhí)照考試和視覺推理。

結(jié)果顯示LLM給出的答案有相當大的可變性。特別是，研究人員發(fā)現(xiàn)，GPT-4在6月份的數(shù)學問題回答中的表現(xiàn)比3月份的更差。使用思考鏈（COT）提示正確識別素數(shù)的準確率顯示，GPT-4的準確率從3月份的84.0%下降到6月份的51.1%。與此同時，GPT-3.5在同一測試中的準確率從3月份的49.6%上升到6月份的76.2%。

作者思考了為什么GPT-4的準確性下降了這么多，觀察到處理COT的行為是不同的。按照研究人員在COT提示下的要求，3月份的版本將任務(wù)分解為多個步驟。然而，6月份版本的GPT-4沒有給出任何中間步驟或解釋，只是將答案（錯誤地）生成為“否”。

第二道數(shù)學題也發(fā)現(xiàn)了類似的漂移水平：發(fā)現(xiàn)“快樂”數(shù)字（研究人員寫道，“如果用數(shù)字的平方和代替整數(shù)最終產(chǎn)生1，則稱為‘快樂’數(shù)字）。研究人員寫道：他們“在這項任務(wù)中觀察到了顯著的性能漂移”，GPT-4的準確率從3月份的83.6%下降到了35.2%，六月GPT-3.5的準確率從30.6%上升到48.2%。再次觀察到，GPT-4沒有遵循研究人員發(fā)布的COT命令。

當研究人員向LLM提出敏感或危險的問題時，也觀察到了變化。GPT-4回答問題的意愿隨著時間的推移而下降，從3月份的21.0%上升到6月份的5.0%。相反，GPT-3.5變得更健談，從2.0%上升到5.0%。研究人員得出結(jié)論，OpenAI在GPT-4中采用了“更強的安全層”，而GPT-3.5則變得“不那么保守”。

意見調(diào)查測試顯示，GPT-4提交意見的可能性明顯降低，從3月份的97.6%的回復(fù)率降至3月份的22.1%，而篇幅冗長（或字數(shù)）增加了近30個百分點。GPT-3.5的響應(yīng)率和冗長程度幾乎沒有變化。

當涉及到回答需要“多跳推理”的復(fù)雜問題時，發(fā)現(xiàn)了性能上的顯著差異。研究人員將LangChain的即時工程能力與HotpotQA Agent（用于回答多跳問題）相結(jié)合，并指出GPT-4在生成完全匹配的答案方面的準確率從1.2%提高到37.8%。然而，GPT-3.5的“精確匹配”成功率從22.8%下降到14.0%。

在代碼生成方面，研究人員觀察到，兩個LLM的輸出在可執(zhí)行性方面都有所下降。GPT-4的輸出在3月份有50%以上是直接可執(zhí)行的，而在6月份只有10%，GPT-3.5也有類似的下降。研究人員發(fā)現(xiàn)，GPT開始在Python輸出中添加非代碼文本，如額外的標點。他們推斷，額外的非代碼文本是為了使代碼更容易在瀏覽器中呈現(xiàn)，但它使代碼不可執(zhí)行。

GPT-4在美國醫(yī)學執(zhí)照考試中的表現(xiàn)略有下降，從86.6%降至82.4%，而GPT-3.5下降了不到1個百分點，降至54.7%。然而，GPT-4出錯的答案隨著時間的推移而變化，這表明隨著3月份的一些錯誤答案得到糾正，但LLM也有從正確答案變?yōu)殄e誤答案情況出現(xiàn)。

視覺推理測試發(fā)現(xiàn)，這兩個模型都有小的改進。然而，總體準確率（GPT-4為27.4%，GPT-3.5為12.2%）并不高。研究人員再次觀察到，模型對他們之前正確回答的問題產(chǎn)生了錯誤的答案。

研究人員寫道，測試表明，GPT-3.5和GPT-4的性能和行為在短時間內(nèi)發(fā)生了顯著變化。

他們寫道：“這突出了持續(xù)評估和評估應(yīng)用程序中LLM漂移行為的必要性，尤其是ChatGPT等LLM是如何隨時間更新的，這一點并不透明。”“我們的研究還強調(diào)了統(tǒng)一提高LLM多方面能力的挑戰(zhàn)。提高模型在某些任務(wù)中的性能，例如對額外數(shù)據(jù)進行微調(diào)，可能會對在其他任務(wù)中的行為產(chǎn)生意想不到的副作用。與此一致的是，GPT-3.5和GPT-4在某些任務(wù)上都變得更差，但在其他方面都有所改善。”

關(guān)鍵詞：