2023-09-08 09:20:25來源:IT之家
【資料圖】
9 月 7 日消息,斯坦福大學的一項新研究發(fā)現(xiàn),熱門生成式人工智能(AI)聊天機器人 ChatGPT 的能力在幾個月內(nèi)有所波動。
斯坦福大學的團隊評估了 ChatGPT 在幾個月內(nèi)如何處理不同的任務(wù)。他們發(fā)現(xiàn),ChatGPT 的能力隨時間的推移而出現(xiàn)了不一致。目前,ChatGPT 有兩個版本 —— 免費的 GPT-3.5 模型和更智能、更快速的付費 GPT-4 版本。研究人員發(fā)現(xiàn),GPT-4 在 3 月份能夠有效地解決數(shù)學問題,識別質(zhì)數(shù)的準確率為 97.6%。三個月后,其準確率下降到了 2.4%。而另一方面,GPT-3.5 卻變得更好,從 7.4% 的準確率提高到了 86.8%。
研究人員還注意到,在編寫代碼和視覺推理方面也有類似的波動。斯坦福大學計算機科學教授 James Zou 稱:“當我們調(diào)整一個大型語言模型來提高它在某些任務(wù)上的表現(xiàn)時,那可能會有很多意想不到的后果,可能會損害這個模型在其他任務(wù)上的表現(xiàn)…… 這個模型回答問題的方式有各種各樣的相互依賴性,這可能導(dǎo)致我們觀察到的一些惡化行為?!?/p>
研究人員認為,結(jié)果并不能真正反映 ChatGPT 性能的準確性狀態(tài),而是顯示了微調(diào)模型帶來的意外后果。本質(zhì)上,當修改模型的一部分來改善一個任務(wù)時,其他任務(wù)可能會受到影響。為什么會這樣很難確定,因為沒有人知道 ChatGPT 是如何運作的,而且它的代碼也不是開源的。
隨著時間的推移,研究人員注意到,ChatGPT 的回答不僅變得不太準確,而且還停止了解釋其推理過程。
由于 ChatGPT 的運作方式,要研究和衡量它的表現(xiàn)可能很困難,這項研究強調(diào)了觀察和評估驅(qū)動 ChatGPT 等工具的大型語言模型(LLM)性能變化的必要性。該研究已經(jīng)在 arXiv 上發(fā)布,并正在等待同行評審,IT之家附鏈接在此。
關(guān)鍵詞:
9月7日消息,斯坦福大學的一項新研究發(fā)現(xiàn),熱門生成式人工智能(AI)聊
在過去的幾十年里,工業(yè)經(jīng)歷了一場革命,改變了工業(yè)的運作方式。從工業(yè)
背景在做傳統(tǒng)業(yè)務(wù)開發(fā)的時候,當我們的服務(wù)提供方有多個實例時,往往我
一、圖譜概覽首先介紹知識圖譜的一些基礎(chǔ)概念。1、什么是知識圖譜知識
在C 中,可以使用System Drawing Bitmap類實現(xiàn)圖片轉(zhuǎn)內(nèi)存緩存,以方便
無疑,元宇宙是當下炙手可熱的風口行業(yè)。無論是傳統(tǒng)玩家,抑或是互聯(lián)網(wǎng)
API(應(yīng)用程序接口)是一種允許不同應(yīng)用程序之間交換數(shù)據(jù)和功能的軟件接
在C++中,純虛函數(shù)和抽象類是面向?qū)ο缶幊讨兄匾母拍睢1疚膶钊?/p>
好消息,開發(fā)者心心念念的GPT-5終于要來了?今日,OpenAI官宣其首屆開
數(shù)據(jù)中心是現(xiàn)代生活的基本組成部分。在這個萬物互聯(lián)的時代,其是我們經(jīng)
MQTT和CoAP都是物聯(lián)網(wǎng)(IoT)使用的輕量級協(xié)議。它們在許多方面相似,但
生成式AI越來越流行,尤其是在商業(yè)領(lǐng)域。不久前,沃爾瑪宣布推出生成式
我是從Oracle5開始使用Oracle的,不過Oracle5、6的時代,我只是幫用戶
自去年ChatGPT發(fā)布后,業(yè)內(nèi)外都涌現(xiàn)出了一股對大型語言模型的狂熱情緒
把Span歸于語法糖,可能有些偏了,但偏了就偏了,哈哈,只要是分享就好