2023-08-07 16:32:13來(lái)源:新智元
長(zhǎng)期以來(lái),我們一直有著在人工智能的發(fā)展下創(chuàng)建自主的智能代理的愿景。
(資料圖片)
人們希望這些代理能夠與環(huán)境進(jìn)行智能的交互,并實(shí)現(xiàn)人類為其設(shè)定的目標(biāo)。
現(xiàn)有的強(qiáng)化學(xué)習(xí)(RL)框架在模擬的游戲或封閉的領(lǐng)域中取得了巨大的成功,但對(duì)于現(xiàn)實(shí)中復(fù)雜的物理環(huán)境卻束手無(wú)策。
而今的自然語(yǔ)言處理技術(shù)(NLP),為人類和大模型在數(shù)字世界中的智能交互提供了獨(dú)特的可擴(kuò)展環(huán)境和學(xué)習(xí)優(yōu)勢(shì)。
例如,WebShop 是一個(gè)包含數(shù)百萬(wàn)種產(chǎn)品的購(gòu)物網(wǎng)站環(huán)境,代理需要在其中閱讀網(wǎng)頁(yè)、鍵入查詢和單擊按鈕,才能像人類一樣購(gòu)物。
這樣的數(shù)字任務(wù)挑戰(zhàn)了智能的一般方面:包括視覺(jué)理解、閱讀理解和決策,并允許擴(kuò)展到其他程序中使用更多的功能。
諸如此類「數(shù)字世界中的智能代理」,為人工智能的落地應(yīng)用設(shè)想了一個(gè)看起來(lái)還不錯(cuò)的前景。
而就在7月26日,一個(gè)以華人為主團(tuán)隊(duì)在X(原推特)上推出了測(cè)試智能代理在網(wǎng)絡(luò)環(huán)境中執(zhí)行任務(wù)的實(shí)踐效果的Web環(huán)境:WebArena。
WebArena是什么?WebArena是一個(gè)獨(dú)立的、自托管的 Web 環(huán)境。
開(kāi)發(fā)者從電子商務(wù)、社交論壇、協(xié)作軟件開(kāi)發(fā)和內(nèi)容管理這四類現(xiàn)實(shí)中的創(chuàng)建了獨(dú)立的網(wǎng)站,在功能和數(shù)據(jù)上模仿真實(shí)世界的內(nèi)容。
WebArena還將工具和知識(shí)資源嵌入為獨(dú)立的網(wǎng)站,以此讓智能代理有模擬人類解決問(wèn)題的能力。
用戶可以對(duì)智能代理進(jìn)行自然語(yǔ)言指令的基準(zhǔn)測(cè)試,實(shí)現(xiàn)與Web的具體交互。
在WebArena的環(huán)境基礎(chǔ)上,開(kāi)發(fā)者發(fā)布了一組基準(zhǔn)任務(wù),重點(diǎn)是評(píng)估任務(wù)完成的功能正確性。
其設(shè)置基準(zhǔn)測(cè)試中的任務(wù)是多樣化的、長(zhǎng)期的,并且旨在模擬人類在互聯(lián)網(wǎng)上經(jīng)常執(zhí)行的任務(wù)。
訂閱OneStopMarket的電子報(bào)
告訴我到目前為止,我們商店收到的含有”最佳”一詞的評(píng)論數(shù)量
距離緬因州最大的城市最近的國(guó)家公園是哪一個(gè)?
取消訂單 307
步行測(cè)量卡內(nèi)基音樂(lè)廳和 UPMC Shadyside 之間的距離
檢查從匹茲堡機(jī)場(chǎng)開(kāi)車一小時(shí)是否可以到達(dá)匹茲堡的杜肯大學(xué)
Agent on Gitlab Gitlab上的代理
"Set up a new, empty repository with the name awesome_llm_reading" “設(shè)置名為 awesome_llm_reading 的新空存儲(chǔ)庫(kù)”
Agent on Shopping Website
"Tell me the status of my latest order and when will it arrive" “告訴我最新訂單的狀態(tài)以及何時(shí)到達(dá)”
一般來(lái)說(shuō),要完成路線導(dǎo)航任務(wù)需要智能代理具備復(fù)雜的長(zhǎng)期規(guī)劃和推理為了達(dá)成任務(wù)目標(biāo),智能代理需要:
在維基百科上搜索位于匹茲堡的藝術(shù)博物館,并在地圖上確定每家博物館的位置,根據(jù)收集的信息進(jìn)行優(yōu)化。
在完成路線規(guī)劃后,智能代理需要將結(jié)果更新到相關(guān)代碼倉(cāng)庫(kù)的README文件中,以文本的形式添加規(guī)劃好的博物館游覽路線。
逼真且可重現(xiàn)的網(wǎng)頁(yè)環(huán)境WebArena的目標(biāo)是創(chuàng)建一個(gè)逼真且可重現(xiàn)的網(wǎng)頁(yè)環(huán)境。
主要通過(guò)兩種方式:
首先,要讓環(huán)境獨(dú)立自主而不依賴實(shí)時(shí)網(wǎng)站來(lái)實(shí)現(xiàn)可重現(xiàn)性。
其次,構(gòu)建許多實(shí)際使用網(wǎng)站的開(kāi)源庫(kù),并從這些網(wǎng)站導(dǎo)入數(shù)據(jù)到我們的環(huán)境中來(lái)實(shí)現(xiàn)逼真性。
這種方式也幫助WebArena規(guī)避了技術(shù)挑戰(zhàn)。例如機(jī)器人需要通過(guò)驗(yàn)證碼、內(nèi)容和配置的不可預(yù)測(cè)變化等,這些都會(huì)阻礙對(duì)不同智能代理在時(shí)間跨度上的公平比較。
評(píng)價(jià)高度逼真的WebArena可交互環(huán)境為基準(zhǔn)測(cè)試的實(shí)現(xiàn)提供了條件。
與其他類似的模擬Web環(huán)境相比較,WebArena的基準(zhǔn)測(cè)試包含人們?nèi)粘?赡苡龅降母鞣N任務(wù)。
同時(shí),WebArena還設(shè)計(jì)了評(píng)估指標(biāo)來(lái)檢查任務(wù)執(zhí)行的功能準(zhǔn)確性。
也因此,WebArena的基準(zhǔn)測(cè)試更貼近真實(shí)的環(huán)境,智能代理的任務(wù)實(shí)踐效果也更接近現(xiàn)實(shí)。
對(duì)在WebArena中運(yùn)行的智能代理執(zhí)行任務(wù)的準(zhǔn)確性,有以下兩種評(píng)估方式:
第一種是測(cè)量執(zhí)行信息搜索任務(wù)的正確性。它將預(yù)測(cè)的答案與注釋的參考答案進(jìn)行比較,有三種實(shí)現(xiàn)方式。
第二種方法是程序化地檢查執(zhí)行過(guò)程中的中間狀態(tài),檢查其是否具有意圖所指定的預(yù)期屬性。
整體而言,WebArena提供了一個(gè)功能完備、高度模擬現(xiàn)實(shí)的測(cè)試環(huán)境和評(píng)估體系。能夠衡量智能體執(zhí)行復(fù)雜任務(wù)的全面能力。
GPT-4智能體奪得冠軍
研究者創(chuàng)建了812個(gè)用英語(yǔ)編寫的目標(biāo)測(cè)試示例,和實(shí)現(xiàn)這些目標(biāo)的網(wǎng)絡(luò)交互。
每個(gè)任務(wù)都會(huì)使用驗(yàn)證器進(jìn)行注釋,以編程方式檢查任務(wù)是否真正按預(yù)期完成。
在這些任務(wù)中,表現(xiàn)最好的GPT-4 Agent實(shí)現(xiàn)了10.59%的有限端到端任務(wù)成功率。
才不到一成,顯然有足夠的改進(jìn)空間。
WebArena的試驗(yàn)這也預(yù)示著這樣一個(gè)未來(lái):
隨著越來(lái)越多的API被整合到環(huán)境中,一個(gè)由極其多樣化和開(kāi)放式的數(shù)字工具和任務(wù)組成的生態(tài)系統(tǒng)將出現(xiàn)。我們將會(huì)培養(yǎng)出更通用和有能力的自主智能代理。
這將為通用人工智能(AGI)的道路帶來(lái)新的方向。
關(guān)鍵詞:
長(zhǎng)期以來(lái),我們一直有著在人工智能的發(fā)展下創(chuàng)建自主的智能代理的愿景。
本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。L
什么是生成式人工智能?生成式人工智能是人工智能(AI)的一種形式,可以
根據(jù)研究機(jī)構(gòu)的預(yù)測(cè),到2025年,40%以上的企業(yè)存儲(chǔ)將部署在邊緣,與202
“金拱門第一個(gè)五年計(jì)劃,門店數(shù)量達(dá)到4500家,營(yíng)業(yè)額保持兩位數(shù)增長(zhǎng),
數(shù)據(jù)中心基礎(chǔ)設(shè)施管理(DCIM)是監(jiān)控、管理和優(yōu)化數(shù)據(jù)中心的物理和邏輯組
關(guān)于linux網(wǎng)絡(luò)相關(guān)的基礎(chǔ)知識(shí)點(diǎn),最熱的兩個(gè)就是socket和epoll,接下來(lái)
當(dāng)下,數(shù)字化技術(shù)正以萬(wàn)鈞之力加速對(duì)社會(huì)各行各業(yè)的變革,不斷推動(dòng)技術(shù)
蔡英文日前澄清沒(méi)有債留子孫,并指馬英九8年執(zhí)政增加至少新臺(tái)幣1兆4000
零售企業(yè)主經(jīng)常面臨庫(kù)存管理問(wèn)題,這阻礙了長(zhǎng)期客戶關(guān)系的發(fā)展。在零售
最近幾天,關(guān)于室溫超導(dǎo)的全球復(fù)現(xiàn)熱潮熱度不減,各路大佬也紛紛出來(lái)表
一、熱搜事件1 賈躍亭因未履行2 4億罰款被列為老賴據(jù)中國(guó)執(zhí)行信息公開(kāi)
隨著自動(dòng)駕駛技術(shù)的飛速發(fā)展,當(dāng)車輛的駕駛者得到真正的“解放”,更多
【椒江區(qū)】今年首個(gè)城市更新項(xiàng)目簽約“清零”,征遷,區(qū)塊,銘苑,椒江區(qū),
關(guān)于5G的宣傳,我們已經(jīng)有耳聞很長(zhǎng)一段時(shí)間了。然而,我們還沒(méi)有真正實(shí)