2023-08-24 11:30:00來源:企業(yè)網(wǎng)D1Net
AI區(qū)別于傳統(tǒng)軟件的一個基本特征是它的非確定性。即使使用相同的輸入,不同輪的計算也會產(chǎn)生不同的結(jié)果。雖然這一特征極大地促進了AI令人興奮的技術(shù)潛力,但它也帶來了挑戰(zhàn),特別是在衡量基于AI的應用程序的有效性方面。
下面是這些挑戰(zhàn)的一些錯綜復雜的部分,以及戰(zhàn)略研發(fā)管理可以起到一些作用的方法。
AI應用程序的性質(zhì)與傳統(tǒng)軟件系統(tǒng)不同,在傳統(tǒng)軟件系統(tǒng)中,重復和可預測性對功能既是預期的,也是至關重要的,AI應用程序的非確定性性質(zhì)意味著它們不會從相同的輸入產(chǎn)生一致的、可預測的結(jié)果。他們也不應該——如果ChatGPT一遍又一遍地進行相同的腳本響應,而不是每次都有新的東西,它就不會引起如此大的轟動。
(資料圖片僅供參考)
這種不可預測性源于ML和深度學習中使用的算法,這些算法依賴于統(tǒng)計模型和復雜的神經(jīng)網(wǎng)絡。這些AI系統(tǒng)旨在不斷從數(shù)據(jù)中學習并做出明智的決策,從而根據(jù)上下文、訓練輸入和模型配置產(chǎn)生不同的輸出。
衡量是否成功時面臨的挑戰(zhàn)由于其概率結(jié)果、針對不確定性而編程的算法以及對統(tǒng)計模型的依賴,AI應用程序使基于預定預期定義明確的成功衡量標準變得具有挑戰(zhàn)性。換句話說,從本質(zhì)上講,AI可以以類似于人類思維的方式思考、學習和創(chuàng)造。但我們怎么知道它認為什么是正確的呢?
另一個關鍵的復雜因素是數(shù)據(jù)質(zhì)量和多樣性的影響。AI模型在很大程度上依賴于它們所訓練的數(shù)據(jù)的質(zhì)量、相關性和多樣性——它們從這些信息中“學習”。為了使這些應用程序獲得成功,它們必須接受包含各種場景(包括邊緣案例)的代表性數(shù)據(jù)的培訓。評估訓練數(shù)據(jù)的充分性和準確表示對于確定AI應用程序的整體成功至關重要。然而,考慮到AI的相對新穎性,以及它所使用的數(shù)據(jù)的質(zhì)量和多樣性的標準尚未確定,結(jié)果的質(zhì)量在不同的應用程序中波動很大。
然而,有時是人類思維的影響——更具體地說,是語境解釋和人類偏見——讓衡量AI的成功變得復雜。AI工具通常需要這種人工評估,因為這些應用程序需要適應不同的情況、用戶偏見和其他主觀因素。
因此,在這種情況下衡量成功成為一項復雜的任務,因為它涉及到獲取用戶滿意度、主觀評估和特定于用戶的結(jié)果,而這些結(jié)果可能不容易量化。
如何克服挑戰(zhàn)了解這些復雜情況背后的背景是提出改進成功評估和使AI工具更好地工作所需戰(zhàn)略的第一步。以下是三個可以幫助你的策略:
1、定義概率成功指標鑒于AI應用結(jié)果固有的不確定性,那些負責評估其成功的人必須拿出專門為捕捉概率結(jié)果而設計的全新指標??赡軐鹘y(tǒng)軟件系統(tǒng)有意義的成功模式與AI工具配置根本不兼容。
與其只關注確定性的績效指標,如準確度或精確度,不如將可信區(qū)間或概率分布等概率指標納入其中——這些統(tǒng)計指標評估特定參數(shù)內(nèi)不同結(jié)果的概率——可以提供更全面的成功圖景。
2、更強大的驗證和評估建立嚴格的驗證和評估框架對AI應用至關重要。這包括全面測試、對照相關樣本數(shù)據(jù)集進行基準測試,以及進行敏感性分析以評估系統(tǒng)在不同條件下的性能。定期更新和再培訓模型,以適應不斷變化的數(shù)據(jù)模式,有助于保持準確性和可靠性。
3、以用戶為中心的測評AI的成功不僅僅存在于算法的范圍內(nèi)。從接受產(chǎn)出的人的角度來看,產(chǎn)出的有效性同樣重要。
因此,在衡量AI應用程序的成功時,尤其是針對面向消費者的工具,納入用戶反饋和主觀評估是至關重要的。通過調(diào)查、用戶研究和定性評估收集見解,可以提供有關用戶滿意度、信任度和感知效用的寶貴信息。平衡客觀的績效指標和以用戶為中心的產(chǎn)出評估,將產(chǎn)生更全面的成功視角。
評估是否成功衡量任何給定AI工具的成功需要一種微妙的方法,承認其輸出的概率性質(zhì)。那些參與創(chuàng)造和微調(diào)任何能力的AI的人,特別是從研發(fā)角度來看,必須認識到這種固有的不確定性帶來的挑戰(zhàn)。
只有定義適當?shù)母怕手笜?,進行嚴格的驗證,并納入以用戶為中心的評估,該行業(yè)才能有效地駕馭AI激動人心的潛在能力。
關鍵詞:
AI區(qū)別于傳統(tǒng)軟件的一個基本特征是它的非確定性。即使使用相同的輸入,
WiFi自26年前誕生以來已經(jīng)走過了漫長的道路。最初,它支持2 4GHz的2Mbp
關于既有住宅增設電梯提取住房公積金的通知各有關單位:為進一步發(fā)揮住
1 介紹虛擬號是一種基于互聯(lián)網(wǎng)技術(shù)的電話號碼服務。它通過將電話號碼與
概述樓宇自動化控制系統(tǒng)改變了我們管理和控制建筑物各種功能的方式,從
一、前言在日常工作中,無論是產(chǎn)品經(jīng)理寫PRD或是開發(fā)、測試同學寫技術(shù)
環(huán)境:Springboot3 0 5什么是接口防重接口防重是指在一定時間內(nèi)只允許
我們知道RocketMQ主要分為消息生產(chǎn)、存儲(消息堆積)、消費三大塊領域
公攤問題,關鍵還在預售制,期房,套內(nèi),開發(fā)商,預售制,公攤面積,商品房現(xiàn)房
近日,上市公司回購股份掀起高潮?! ?月23日晚間,A股回購大軍繼續(xù)擴
比利時一男子占卜自己將死于空難,回家閉門不出,被失控飛機砸死,飛機,
國臺辦21日宣布即日起暫停臺灣芒果輸入大陸,臺灣一些媒體視為大陸叫停
由寧浩執(zhí)導、劉德華領銜主演的電影《紅毯先生》將亮相第48屆多倫多國際
中國地震臺網(wǎng)正式測定:8月23日18時40分在遼寧大連市普蘭店區(qū)(北緯39
很多人對男人三十五歲后感覺身體越來越差,男人三十五不是很了解那具體