斯坦福大學研究發(fā)現(xiàn)，AI 聊天機器人 ChatGPT 的表現(xiàn)很不穩(wěn)定

2023-09-08 09:20:25來源：IT之家

【資料圖】

9 月 7 日消息，斯坦福大學的一項新研究發(fā)現(xiàn)，熱門生成式人工智能（AI）聊天機器人 ChatGPT 的能力在幾個月內(nèi)有所波動。

斯坦福大學的團隊評估了 ChatGPT 在幾個月內(nèi)如何處理不同的任務(wù)。他們發(fā)現(xiàn)，ChatGPT 的能力隨時間的推移而出現(xiàn)了不一致。目前，ChatGPT 有兩個版本 —— 免費的 GPT-3.5 模型和更智能、更快速的付費 GPT-4 版本。研究人員發(fā)現(xiàn)，GPT-4 在 3 月份能夠有效地解決數(shù)學問題，識別質(zhì)數(shù)的準確率為 97.6%。三個月后，其準確率下降到了 2.4%。而另一方面，GPT-3.5 卻變得更好，從 7.4% 的準確率提高到了 86.8%。

研究人員還注意到，在編寫代碼和視覺推理方面也有類似的波動。斯坦福大學計算機科學教授 James Zou 稱：“當我們調(diào)整一個大型語言模型來提高它在某些任務(wù)上的表現(xiàn)時，那可能會有很多意想不到的后果，可能會損害這個模型在其他任務(wù)上的表現(xiàn)…… 這個模型回答問題的方式有各種各樣的相互依賴性，這可能導(dǎo)致我們觀察到的一些惡化行為?！?/p>

研究人員認為，結(jié)果并不能真正反映 ChatGPT 性能的準確性狀態(tài)，而是顯示了微調(diào)模型帶來的意外后果。本質(zhì)上，當修改模型的一部分來改善一個任務(wù)時，其他任務(wù)可能會受到影響。為什么會這樣很難確定，因為沒有人知道 ChatGPT 是如何運作的，而且它的代碼也不是開源的。

隨著時間的推移，研究人員注意到，ChatGPT 的回答不僅變得不太準確，而且還停止了解釋其推理過程。

由于 ChatGPT 的運作方式，要研究和衡量它的表現(xiàn)可能很困難，這項研究強調(diào)了觀察和評估驅(qū)動 ChatGPT 等工具的大型語言模型（LLM）性能變化的必要性。該研究已經(jīng)在 arXiv 上發(fā)布，并正在等待同行評審，IT之家附鏈接在此。

關(guān)鍵詞：

相關(guān)新聞

斯坦福大學研究發(fā)現(xiàn)，AI 聊天機器人 ChatGPT 的表現(xiàn)很不穩(wěn)定

9月7日消息，斯坦福大學的一項新研究發(fā)現(xiàn)，熱門生成式人工智能（AI）聊
移動解決方案與制造業(yè)的未來

在過去的幾十年里，工業(yè)經(jīng)歷了一場革命，改變了工業(yè)的運作方式。從工業(yè)
k8s入門到實戰(zhàn)--跨服務(wù)調(diào)用

背景在做傳統(tǒng)業(yè)務(wù)開發(fā)的時候，當我們的服務(wù)提供方有多個實例時，往往我
賈強槐：螞蟻大規(guī)模知識圖譜構(gòu)建及其應(yīng)用

一、圖譜概覽首先介紹知識圖譜的一些基礎(chǔ)概念。1、什么是知識圖譜知識
用C#實現(xiàn)圖片轉(zhuǎn)內(nèi)存緩存，實現(xiàn)跨進城共享

在C 中，可以使用System Drawing Bitmap類實現(xiàn)圖片轉(zhuǎn)內(nèi)存緩存，以方便
元宇宙，一切都剛剛開始

無疑，元宇宙是當下炙手可熱的風口行業(yè)。無論是傳統(tǒng)玩家，抑或是互聯(lián)網(wǎng)
你的API夠快嗎？優(yōu)化API性能的五種方法

API(應(yīng)用程序接口)是一種允許不同應(yīng)用程序之間交換數(shù)據(jù)和功能的軟件接
C++提高篇：深入理解純虛函數(shù)和抽象類

在C++中，純虛函數(shù)和抽象類是面向?qū)ο缶幊讨兄匾母拍睢１疚膶钊?/p>
無GPT-5或4.5，兩月后OpenAI首屆開發(fā)者大會要發(fā)的新東西，引熱猜

好消息，開發(fā)者心心念念的GPT-5終于要來了？今日，OpenAI官宣其首屆開
人工智能革命會終結(jié)凈零數(shù)據(jù)中心嗎？

數(shù)據(jù)中心是現(xiàn)代生活的基本組成部分。在這個萬物互聯(lián)的時代，其是我們經(jīng)
物聯(lián)網(wǎng)協(xié)議對比：MQTT vs CoAP

MQTT和CoAP都是物聯(lián)網(wǎng)(IoT)使用的輕量級協(xié)議。它們在許多方面相似，但
生成式AI走到十字路口下一波浪潮在哪？

生成式AI越來越流行，尤其是在商業(yè)領(lǐng)域。不久前，沃爾瑪宣布推出生成式
從Sysstat到Metric：數(shù)據(jù)庫可觀測性的巨大進步

我是從Oracle5開始使用Oracle的，不過Oracle5、6的時代，我只是幫用戶
LeCun再潑冷水：只會看書的語言模型永遠無法實現(xiàn)「類人智能」

自去年ChatGPT發(fā)布后，業(yè)內(nèi)外都涌現(xiàn)出了一股對大型語言模型的狂熱情緒
C# 語法糖之聊聊 Span 的底層玩法

把Span歸于語法糖，可能有些偏了，但偏了就偏了，哈哈，只要是分享就好