2023-06-29 18:02:01來源:新智元
此前,曾有不少人研發(fā)ChatGPT檢測器,但沒有一個(gè)能夠真正有效鑒別。
來自堪薩斯大學(xué)的研究人員介紹了一種全新的算法,能夠檢測是否用ChatGPT作弊,準(zhǔn)確率超99% 。
(資料圖)
最新研究已在6月7日,發(fā)表在Cell Reports Physical Science期刊上。
圖片
該論文的作者之一、堪薩斯大學(xué)化學(xué)教授Heather Desaire表示,
「我們努力創(chuàng)建一種易于使用的方法,這樣,即便是高中生,只需很少的指導(dǎo),也可以為不同類型的寫作構(gòu)建一個(gè)人工智能檢測器?!?/p>四大特征,99%識(shí)別率
就像研究者所稱,90%準(zhǔn)確性往往是不夠的。但要獲得更高準(zhǔn)確性,取舍往往是普遍性。
這項(xiàng)研究中,研究人員選取了人類作者撰寫的64篇「科學(xué)」雜志上的研究文章,涵蓋從生物學(xué)到物理學(xué)的各個(gè)學(xué)科。
然后,將這些數(shù)據(jù)喂給ChatGPT,并用這些數(shù)據(jù)生成了一個(gè)128篇人工智能文章的數(shù)據(jù)集。
這組訓(xùn)練數(shù)據(jù),包含1276段聊天機(jī)器人示例段落。
研究者利用這些數(shù)據(jù)構(gòu)建了ChatGPT檢測算法。
在模型完全開發(fā)和優(yōu)化后,他們還生成了兩個(gè)測試集。每個(gè)測試集有30篇真實(shí)文章和60篇ChatGPT撰寫的文章(總計(jì)1210段)組成了一個(gè)新的數(shù)據(jù)集,來測試最新算法。
實(shí)驗(yàn)結(jié)果顯示,最新算法能夠100%檢測到ChatGPT寫的整篇文章。
在段落層面上,其準(zhǔn)確性較低,但仍令人印象深刻:該算法發(fā)現(xiàn)了92%的由人工智能生成的段落。
圖片
值得一提的是,論文稱,從一些細(xì)節(jié)中就能發(fā)現(xiàn),哪些內(nèi)容是ChatGPT創(chuàng)作的。
通過對(duì)訓(xùn)練集中許多示例的手動(dòng)比較,研究者確定了4類特征。這些特征有助于區(qū)分人類寫作和聊天機(jī)器人。
(1)段落復(fù)雜性,(2)句子長度多樣性,(3)標(biāo)點(diǎn)符號(hào),以及(4)流行詞或數(shù)字
總的來說,人類作家寫的段落更長、使用詞匯量更大,包含更多的標(biāo)點(diǎn)符號(hào)。
而且,還傾向于用「然而」、「但是」和「盡管」這樣的詞來修飾他們的陳述。而ChatGPT在引用數(shù)字,提及其他科學(xué)家方面沒有那么具體。
在如下表分類中,人類擅長的內(nèi)容要比ChatGPT多得多。
圖片
在這四類特征中,有兩類(1和3)是ChatGPT產(chǎn)生的內(nèi)容不如人類復(fù)雜的方式。最大的區(qū)別特征是每段句子的數(shù)量和每段總單詞的數(shù)量。
在這兩種情況下,ChatGPT的平均值都明顯低于人類。
研究者還發(fā)現(xiàn),人類更喜歡改變句子結(jié)構(gòu)。人類改變句子長度的次數(shù)超過ChatGPT。人類也更頻繁地使用較長的句子(35個(gè)單詞或更多)和較短的句子(10個(gè)單詞或更少)。
剩下的兩類區(qū)分特征可以更多地描述為「文體」選擇。
一方面,人類科學(xué)家更頻繁地使用問號(hào)、破折號(hào)、括號(hào)、分號(hào)和冒號(hào),而ChatGPT使用更多的單引號(hào)。
人類還使用更多的專有名詞和/或首字母縮略詞,還有數(shù)字。
這個(gè)由Desaire公司建立的這個(gè)模型,對(duì)于那些希望懲罰作弊的高中生的老師來說,是行不通的。
該算法是為學(xué)術(shù)寫作而建立的,特別是人們在科學(xué)期刊上讀到的那種學(xué)術(shù)寫作。
這家公司表示,理論上你可以使用同樣的技術(shù)來建立一個(gè)模型,來檢測其他類型的寫作。
不過,不得不考慮的一個(gè)事實(shí)是,一個(gè)人可以很容易地對(duì)一個(gè)聊天機(jī)器人的寫作進(jìn)行一些小調(diào)整,并讓其更難被發(fā)現(xiàn)是作弊,事情就更復(fù)雜了。
當(dāng)你考慮到這樣一個(gè)事實(shí),一個(gè)作者可以很容易地對(duì)一個(gè)聊天機(jī)器人的寫作進(jìn)行一些小的調(diào)整,并使它更難被發(fā)現(xiàn)時(shí),事情就崩潰了。
盡管如此,研究人員將這項(xiàng)研究描述為「概念證明」,并表示未來可以開發(fā)一個(gè)更加穩(wěn)定,準(zhǔn)確的工具與更大的數(shù)據(jù)集。
如果人工智能繼續(xù)以極快速度發(fā)展下去,誰也無法保證這樣的檢測方法,能否依然有效。
因?yàn)榇笮驼Z言模型越接近復(fù)制人類語言文字的能力,識(shí)別機(jī)器人語言的痕跡就越困難。
AI檢測為何如此困難自ChatGPT面世以來,已經(jīng)被許多高校的學(xué)生和老師用在日常的作業(yè)和教學(xué)中。
然而,如果不加以限制,ChatGPT將會(huì)變成史上最強(qiáng)大的作弊工具,可以幫助學(xué)生們寫作業(yè),甚至是完成考試論文。
為了反偵察,一款簡單易用的檢測器成為老師期盼的東西。一位22歲普林斯頓大學(xué)的學(xué)生Edward Tian,就自行開發(fā)了一款檢測器——GPTZero。
圖片
甚至,OpenAI官宣推出一個(gè)新工具,名為AI Text Classifier的文件檢測器。
但是,這些檢測器的表現(xiàn)并不如人意。
圖片
檢測出AI創(chuàng)作的內(nèi)容聽起來很簡單。但當(dāng)給你一封手寫郵件和ChatGPT生成的郵件后,我們幾乎無法辨別。
Turnitin的人工智能副總裁Eric Wang稱,用軟件檢測人工智能寫作涉及統(tǒng)計(jì)學(xué)。從統(tǒng)計(jì)學(xué)的角度來看,人工智能與人類的區(qū)別在于它極其穩(wěn)定地處于平均水平。
直白點(diǎn)講,AI水平很穩(wěn)定。然而,實(shí)際上并非這樣一個(gè)道理。
「像ChatGPT這樣的系統(tǒng)就像是自動(dòng)補(bǔ)全的高級(jí)版本,尋找下一個(gè)最可能要寫的單詞。這實(shí)際上就是它為什么讀起來如此自然的原因。AI寫作是人類寫作中最可能的子集?!?/p>
關(guān)鍵詞:
此前,曾有不少人研發(fā)ChatGPT檢測器,但沒有一個(gè)能夠真正有效鑒別。來
本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
問題:打擾一下各位,天價(jià)賬單餐廳回應(yīng)說了什么。剛剛看到一個(gè)新聞,餐
中國經(jīng)濟(jì)網(wǎng)北京6月29日訊今日,白酒概念板塊整體跌幅0 63%,其中14只股
夏季氣溫高、濕度大,有利于病原菌的繁殖,食物被污染的可能性較大,容
后臺(tái)回復(fù)品牌免費(fèi)獲得《50本品牌營銷必讀書》作者|Hiu來源|互聯(lián)網(wǎng)品牌
人行大同市中支認(rèn)真貫徹落實(shí)上級(jí)行反洗錢工作會(huì)議精神,結(jié)合當(dāng)前反洗錢
【 山西一煤礦發(fā)生頂板冒落事故 】據(jù)大同發(fā)布微信公眾號(hào)29日消息,晉能
中新網(wǎng)揚(yáng)州6月29日電(崔佳明葛勇徐珊珊)6月28日至29日,來自俄羅斯、赤
醫(yī)生經(jīng)過辨認(rèn),這4名患者采食的雜菌中包括了亞稀褶紅菇、牛肚菌、新苦
6月28日,西安美術(shù)學(xué)院2023屆畢業(yè)典禮暨學(xué)位授予儀式在雁塔校區(qū)弘美廣
當(dāng)前,隨著我國數(shù)字化轉(zhuǎn)型的深入,作為數(shù)字化底座的網(wǎng)絡(luò)安全對(duì)于企業(yè)組
《逆來順獸》是知音漫客出品的一部古風(fēng)耽美言情漫畫。騰訊動(dòng)漫連載中,
smart品牌全球公司發(fā)布聲明稱,關(guān)注到網(wǎng)絡(luò)流傳“奔馳和吉利退出smart股
揚(yáng)州邗江區(qū)2023年中考錄取分?jǐn)?shù)線邗江中學(xué)713分瓜洲中學(xué)600分公道中學(xué)59