2023-06-27 17:21:39來源:機器之心
(相關(guān)資料圖)
多模態(tài)機器學習在各種場景下都取得了令人矚目的進展。然而,多模態(tài)學習模型的可靠性尚缺乏深入研究。「信息是消除的不確定性」,多模態(tài)機器學習的初衷與這是一致的——增加的模態(tài)可以使得預測更為準確和可靠。然而,最近發(fā)表于 ICML2023 的論文《Calibrating Multimodal Learning》發(fā)現(xiàn)當前多模態(tài)學習方法違法了這一可靠性假設(shè),并做出了詳細分析和矯正。
圖片
論文 Arxiv:https://arxiv.org/abs/2306.01265代碼 GitHub:https://github.com/QingyangZhang/CML當前的多模態(tài)分類方法存在不可靠的置信度,即當部分模態(tài)被移除時,模型可能產(chǎn)生更高的置信度,違反了信息論中 「信息是消除的不確定性」這一基本原理。針對此問題,本文提出校準多模態(tài)學習(Calibrating Multimodal Learning)方法。該方法可以部署到不同的多模態(tài)學習范式中,提升多模態(tài)學習模型的合理性和可信性。
圖片
該工作指出,當前多模態(tài)學習方法存在不可靠的預測置信度問題,現(xiàn)有多模態(tài)機器學習模型傾向于依賴部分模態(tài)來估計置信度。特別地,研究發(fā)現(xiàn),當前模型估計的置信度在某些模態(tài)被損壞時反而會增加。為了解決這個不合理問題,作者提出了一個直觀的多模態(tài)學習原則:當移除模態(tài)時,模型預測置信度不應增加。但是,當前的模型卻傾向于相信部分模態(tài),容易受到這個模態(tài)的影響,而不是公平地考慮所有模態(tài)。這進一步影響了模型的魯棒性,即當某些模態(tài)被損壞時,模型很容易受到影響。
為了解決上述問題,目前一些方法采用了現(xiàn)有的不確定性校準方法,例如 Temperature Scaling 或貝葉斯學習方法。這些方法可以構(gòu)建比傳統(tǒng)訓練 / 推理方式更準確的置信度估計。但是,這些方法只是使最終融合結(jié)果的信心估計與正確率匹配,并沒有明確考慮模態(tài)信息量與信心之間的關(guān)系,因此,無法本質(zhì)上提升多模態(tài)學習模型的可信性。
作者提出了一個新的正則化技術(shù),稱為 “Calibrating Multimodal Learning (CML)”。該技術(shù)通過添加一項懲罰項來強制模型預測信心與信息量的匹配關(guān)系,以實現(xiàn)預測置信度和信息量之間的一致性。該技術(shù)基于一種自然的直覺,即當移除一個模態(tài)時,預測置信度應該降低(至少不應該增加),這可以內(nèi)在地提高置信度校準。具體來說,提出了一種簡單的正則化項,通過對那些當移除一個模態(tài)時預測置信度會增加的樣本添加懲罰,來強制模型學習直觀的次序關(guān)系:
上面的約束為正則損失,當模態(tài)信息移除信心上升時作為懲罰出現(xiàn)。
實驗結(jié)果表明,CML 正則化可以顯著提高現(xiàn)有多模態(tài)學習方法的預測置信度的可靠性。此外,CML 還可以提高分類精度,并提高模型的魯棒性。
多模態(tài)機器學習在各種情境中取得了顯著的進展,但是多模態(tài)機器學習模型的可靠性仍然是一個需要解決的問題。本文通過廣泛的實證研究發(fā)現(xiàn),當前多模態(tài)分類方法存在預測置信度不可靠的問題,違反了信息論原則。針對這一問題,研究人員提出了 CML 正則化技術(shù),該技術(shù)可以靈活地部署到現(xiàn)有的模型,并在置信度校準、分類精度和模型魯棒性方面提高性能。相信這個新技術(shù)將在未來的多模態(tài)學習中發(fā)揮重要作用,提高機器學習的可靠性和實用性。
關(guān)鍵詞:
多模態(tài)機器學習在各種場景下都取得了令人矚目的進展。然而,多模態(tài)學習
豐田汽車研究院表示,新推出的創(chuàng)新型生成式人工智能工具將使設(shè)計師能夠
隨著各地2023高考分數(shù)線公布,高考志愿填報工作也陸續(xù)啟動。高考志愿填
6月21日,在阿富汗盧格爾省,當?shù)鼐用耦I(lǐng)取宰牲節(jié)過節(jié)物資。近日,中國
快科技6月27日訊,大企業(yè)之間的關(guān)系遠沒有想象中那樣和諧,牌桌下面的
科捷智能(688455)06月27日在投資者關(guān)系平臺上答復了投資者關(guān)心的問題。
6月21日,市紀委監(jiān)委宣傳部副部長楊齊,區(qū)紀委常委、宣傳部部長李聿等
企查查APP顯示,近日,東莞德門智能有限公司成立,注冊資本3000萬元,
科技行業(yè)歷來是平均薪酬最高的幾個行業(yè)之一,而且經(jīng)常位居榜首。圖片202
本教程將介紹如何使用Streamlit和Matplotlib創(chuàng)建一個用戶友好的數(shù)據(jù)可
一 分布式事務(wù)問題的理論模型1 1CAP三進二CAP的定義Consistency(一致性
過去半年,由ChatGPT引領(lǐng)的生成式大型語言模型技術(shù),以其強大的「通用
連衣裙作為夏天的白月光,每個人的衣櫥都應該有一兩件吧!不同款式不同
6月27日,阿壩州九寨溝縣召開全縣領(lǐng)導干部大會,宣布省委組織部、阿壩
1介紹智能交通系統(tǒng)解決了復雜環(huán)境中具有挑戰(zhàn)性的自主性和安全性問題,