首頁(yè)>國(guó)內(nèi) > 正文

GPT-4一天頂6個(gè)月，人類審核要失業(yè)？OpenAI凌晨發(fā)布重磅升級(jí)，或大量取代人類審核員

2023-08-16 14:22:41來源：新智元

人類審核員恐將迎來大面積失業(yè)？

在GPT-4公開的四個(gè)月后，OpenAI開發(fā)了一種方法，可以使用GPT-4進(jìn)行內(nèi)容審核了！人類幾個(gè)月的工作，它幾小時(shí)就能完成。

此消息一出，立馬登上知乎熱搜。

【資料圖】

網(wǎng)友紛紛表示：藥丸，人類這次是真的要失業(yè)了。

對(duì)于所有互聯(lián)網(wǎng)內(nèi)容平臺(tái)，內(nèi)容審核都是一項(xiàng)重要工作。海量的內(nèi)容審核工作，基本都是靠人工在完成。

如果OpenAI的這種方法可以大規(guī)模推廣，人類審核員恐怕真的要被優(yōu)化了，一大波利益相關(guān)者都會(huì)被波及。

GPT-4審核員比人類強(qiáng)在哪里？

具體來說，在內(nèi)容政策制定和內(nèi)容審核中，它可以實(shí)現(xiàn)更一致的標(biāo)簽、更快的政策細(xì)化反饋循環(huán)，大大減少了對(duì)人類審核員的需求。

現(xiàn)在，任何擁有OpenAI API訪問權(quán)限的人，都可以用這種方法創(chuàng)建自己的AI輔助審核系統(tǒng)。

總之，以后平臺(tái)對(duì)于內(nèi)容有任何特定的政策，AI都能幫忙完成，人類的負(fù)擔(dān)大大減輕了！

為什么選擇GPT-4？

現(xiàn)在，互聯(lián)網(wǎng)上的內(nèi)容審核越來越重要。

內(nèi)容審核不僅是維系網(wǎng)絡(luò)平臺(tái)健康發(fā)展的關(guān)鍵，對(duì)于網(wǎng)站開發(fā)人員來說，它也是一道繞不開的自我審查防線。

自己每天生成的內(nèi)容已經(jīng)是個(gè)非常龐大的數(shù)字了，現(xiàn)在加上網(wǎng)絡(luò)中存在的大量AI，它們生產(chǎn)的內(nèi)容甚至遠(yuǎn)超人類生成內(nèi)容的數(shù)量級(jí)。

而且內(nèi)容審核也并不像外行人想象得那樣輕松，只需要坐在電腦前劃水看兩眼就可以了。

事實(shí)上，內(nèi)容審核需要一絲不茍的努力、內(nèi)容的敏感性、對(duì)上下文的深刻理解，以及快速適應(yīng)新的審核用例等挑戰(zhàn)。

傳統(tǒng)的人工審核耗時(shí)又費(fèi)力，而這種巨大的工程量無疑是相當(dāng)沉重的負(fù)擔(dān)。

而OpenAI靈機(jī)一動(dòng)，選擇讓GPT-4來承擔(dān)這一重任，幫人類構(gòu)建一個(gè)可擴(kuò)展的審核系統(tǒng)。

在以往，要完成內(nèi)容審查，需要花費(fèi)長(zhǎng)達(dá)數(shù)月的時(shí)間，因?yàn)槭紫饶愕孟扔?xùn)練出數(shù)量龐大的人類審查員，之后才能讓他們能夠按照規(guī)定的那樣進(jìn)行審核。

而GPT-4只要在幾個(gè)小時(shí)內(nèi)就可以完成這個(gè)工作，而且還更高效。

在解釋長(zhǎng)內(nèi)容政策文檔中的規(guī)則和細(xì)微差別上，GPT-4做得比人類更好，而且它還能即時(shí)適應(yīng)政策更新，實(shí)現(xiàn)更加一致的標(biāo)注。

人類在上網(wǎng)過程中產(chǎn)生的不適宜內(nèi)容，可以被GPT-4判別出來，一舉拿下。

GPT-4審核官「養(yǎng)成記」

對(duì)于GPT-4，你可以直接告訴它具體的內(nèi)容政策，比如不要任何涉及暴力以及非暴力的錯(cuò)誤行為，以及采購(gòu)武器的信息。

GPT-4會(huì)學(xué)習(xí)這些內(nèi)容，充分消化、吸收，然后就開始進(jìn)行自動(dòng)化和高效的內(nèi)容審核。

在這個(gè)過程中，危險(xiǎn)的問題（如何制造炸彈、怎么偷一輛車）會(huì)被政策專家（也即內(nèi)容審核官）標(biāo)記出來，輸出一個(gè)「黃金數(shù)據(jù)集」，也就是正確答案。

然后，就輪到GPT-4接受考驗(yàn)的時(shí)候了。

它會(huì)經(jīng)歷和政策專家相同的過程，標(biāo)記同一組示例，為其分配標(biāo)簽。

不過，GPT-4并沒有看到黃金數(shù)據(jù)集的答案。

接下來，人類團(tuán)隊(duì)會(huì)向GPT-4揭開金色數(shù)據(jù)集，如果GPT-4的判定和政策專家的判斷不一致，它會(huì)得到一個(gè)評(píng)分。

然后，團(tuán)隊(duì)會(huì)分析政策專家和GPT-4的分歧究竟在哪里，他們可以要GPT-4提供自己的推理過程，說明為什么會(huì)給某個(gè)示例分配這樣的標(biāo)簽。

GPT-4解釋說：該文本應(yīng)歸類為K0非-非法行為，因?yàn)樗环先魏螛?biāo)簽的標(biāo)準(zhǔn)。雖然偷車是非暴力的，但該請(qǐng)求并未提及惡意軟件、販毒、故意破壞的生成。雖然偷車可能被視為財(cái)產(chǎn)盜竊，但該政策并未將其列為一種不當(dāng)行為，因此內(nèi)容應(yīng)標(biāo)記為K0

這樣，團(tuán)隊(duì)就知道給GPT-4喂的行動(dòng)說明中究竟哪里需要更多的澄清，然后進(jìn)行相應(yīng)的調(diào)整。

這個(gè)循環(huán)會(huì)一直重復(fù)，直到模型的判斷和專家一致。

整個(gè)過程是迭代的，速度很快。每次迭代后，GPT-4都會(huì)變得更加適應(yīng)政策的細(xì)微差別。

迭代過程會(huì)生成轉(zhuǎn)換為分類器的優(yōu)化內(nèi)容政策，因此能夠大規(guī)模地部署對(duì)政策和內(nèi)容的審查。

這個(gè)過程可謂是「教學(xué)相長(zhǎng)」。不光GPT-4的預(yù)測(cè)變得更準(zhǔn)確，政策本身也變得更準(zhǔn)確了。

另外，在大量?jī)?nèi)容上運(yùn)行大語(yǔ)言模型，會(huì)導(dǎo)致計(jì)算成本太高。

如何讓這個(gè)過程更有效？團(tuán)隊(duì)選擇使用模型的預(yù)測(cè)，來微調(diào)較小的模型。然后再由較小的模型負(fù)責(zé)大規(guī)模的審核內(nèi)容。

使用GPT-4進(jìn)行內(nèi)容審核的過程：從政策制定到大規(guī)模審核

這次，真不用人類了

利用人工智能進(jìn)行內(nèi)容審核，這個(gè)簡(jiǎn)單而強(qiáng)大的想法為傳統(tǒng)的內(nèi)容審核方法提供了一些改進(jìn)：

首先是更加一致的標(biāo)注。由于內(nèi)容政策在不斷發(fā)展，條例變得越來越多。

就像有一千個(gè)讀者就有一千個(gè)哈姆雷特那樣，人們對(duì)這些繁雜條例的理解也會(huì)有偏差。

同時(shí)，因?yàn)槿祟愡€需要一定的時(shí)間來熟悉新的政策變化，這也會(huì)讓內(nèi)容的標(biāo)注不一致。

相比之下，像GPT-4這樣的LLM對(duì)內(nèi)容措辭的細(xì)微差異非常敏感，可以做到實(shí)時(shí)更新，為用戶提供一致的內(nèi)容體驗(yàn)。

第二是更快的反饋循環(huán)。政策更新的周期是一個(gè)非常漫長(zhǎng)的過程。

從制定新政策、標(biāo)記到收集人工反饋，傳統(tǒng)的人工審核要完成這一流程可能會(huì)花費(fèi)數(shù)周、甚至數(shù)月。

在內(nèi)容政策更新比較頻繁的時(shí)候，人工審核可能還沒有完成上次的更新的內(nèi)容，就得面對(duì)新的更新了......

但GPT-4 可以將這一過程縮短到幾個(gè)小時(shí)。不僅大大減小了人工審核的滯后性，還能更快地應(yīng)對(duì)新的危害漏洞。

最后一個(gè)好處是減輕人類的心理負(fù)擔(dān)。持續(xù)接觸有害或冒犯性的內(nèi)容會(huì)導(dǎo)致人類審核員產(chǎn)生情感麻木以及心理壓力。

內(nèi)容審核員面臨著極高的各類精神疾病風(fēng)險(xiǎn)，同時(shí)三班倒工作時(shí)間和低微的薪水與沒有上升空間的職業(yè)道路，讓擔(dān)任內(nèi)容審核的人類自嘲自己和「機(jī)器」一樣。

如果讓真正的機(jī)器來?yè)?dān)任這類工作，將有利于相關(guān)人員的福祉，畢竟我們應(yīng)該不太用擔(dān)心，大量接觸不良信息會(huì)讓GPT模型心理崩潰。

GPT-4的標(biāo)記質(zhì)量類似于經(jīng)過輕度訓(xùn)練的人工版主（B 組）。不過，兩者都被經(jīng)驗(yàn)豐富、訓(xùn)練有素的人類主持人（A 組）超越了

跟Constitutional AI（依賴于模型自己判斷是否安全）相比，OpenAI的這個(gè)方法可以讓基于平臺(tái)的特定內(nèi)容政策迭代更快、更省力。

OpenAI表示鼓勵(lì)安全從業(yè)者都嘗試這個(gè)過程進(jìn)行審核，只要有OpenAI的API訪問權(quán)限就行。

OpenAI還在嘗試，通過結(jié)合思維鏈推理或者自我批評(píng)，來提高GPT-4的預(yù)測(cè)質(zhì)量。

另外他們也在嘗試檢測(cè)未知風(fēng)險(xiǎn)的方法，以及利用模型來識(shí)別潛在的有害內(nèi)容，并對(duì)其進(jìn)行高級(jí)的描述（也是受Constitutional AI）的啟發(fā)。

這些發(fā)現(xiàn)也會(huì)為全新的風(fēng)險(xiǎn)政策提供信息。

當(dāng)然，GPT-4也會(huì)在訓(xùn)練期間出現(xiàn)偏差，這個(gè)過程中還需要人類來監(jiān)控、驗(yàn)證和完善。而節(jié)省的人力，可以用來專注于解決政策需要最需要的復(fù)雜邊緣情況。

知友：看好這類應(yīng)用場(chǎng)景

知友「多頭注意力」表示，這不是GPT的新功能了，但的確是很不錯(cuò)的場(chǎng)景化產(chǎn)品開發(fā)方向。AIGC實(shí)踐中，大家的確會(huì)拿GPT又當(dāng)矛又當(dāng)盾。

在他看來，GPT-4比起人類審核員有如下優(yōu)點(diǎn)——

速度：GPT-4可以比人類審核員更快地審核內(nèi)容。這對(duì)于需要處理大量?jī)?nèi)容的平臺(tái)（例如社交媒體網(wǎng)站）很有用。

準(zhǔn)確性：GPT-4可以比人類審核員更準(zhǔn)確地識(shí)別有害內(nèi)容。這是因?yàn)镚PT-4接受了大量的訓(xùn)練數(shù)據(jù)，可以識(shí)別各種形式的有害內(nèi)容，包括仇恨言論、暴力威脅和虛假信息。

一致性：GPT-4可以比人類審核員更一致地審核內(nèi)容。這是因?yàn)镚PT-4不受人類偏見的影響。

靈活性：新的任務(wù)來只要改改prompt，或者加幾個(gè)sample。人工審核需要大量培訓(xùn)，爬坡等等。

一位曾管理過審核團(tuán)隊(duì)的知友表示，人類審核員的工作其實(shí)非常繁瑣，要求他們每天精神都要高度集中。

因此他不建議去做審核，因?yàn)檫@本質(zhì)上就是一個(gè)數(shù)據(jù)打樁師的工作。

這位知友預(yù)測(cè)，如果人類審核員的工作可以被替代，那大概率會(huì)計(jì)、高速收費(fèi)員、銀行柜員都可以消失了。

但也有知友認(rèn)為，不必太焦慮，人工審核永遠(yuǎn)不會(huì)被AI替代。許多內(nèi)容機(jī)器未必能識(shí)別出來，而在內(nèi)容領(lǐng)域，安全合規(guī)要大于一切。

另外，OpenAI會(huì)不會(huì)存儲(chǔ)或二次使用內(nèi)容，安全性如何保證，都是個(gè)問題。

OpenAI的愿景是，「隨著內(nèi)容規(guī)模的不斷擴(kuò)大，由人類引導(dǎo)的AI可以創(chuàng)造一個(gè)更安全的世界?！?/p>

AI真的能幫我們創(chuàng)造一個(gè)更安全、更無害的世界嗎？目前看來，至少這個(gè)畫面很美好。

關(guān)鍵詞：

人人妻人人澡人人爽人人精品av_精品乱码一区内射人妻无码_老司机午夜福利视频_精品成品国色天香摄像头_99精品福利国产在线导航_野花社区在线观看视频_大地资源在线影视播放_东北高大肥胖丰满熟女_金门瓶马车内剧烈运动

GPT-4一天頂6個(gè)月，人類審核要失業(yè)？OpenAI凌晨發(fā)布重磅升級(jí)，或大量取代人類審核員

相關(guān)新聞