岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear旗下自媒體矩陣:

浙大等團隊攻克多模態(tài)模型“幻覺”難題:先感知校準(zhǔn),后推理算力巧分配

   時間:2026-03-22 19:09:35 來源:互聯(lián)網(wǎng)編輯:快訊 IP:北京 發(fā)表評論無障礙通道
 

當(dāng)圖像逐漸模糊直至難以辨認時,多模態(tài)大模型依然會給出高度自信的答案——這種“盲目自信”現(xiàn)象正成為視覺推理領(lǐng)域的關(guān)鍵挑戰(zhàn)。浙江大學(xué)、阿里巴巴集團、香港城市大學(xué)與密歇根大學(xué)聯(lián)合團隊通過實驗發(fā)現(xiàn),隨著圖像噪聲增強,模型準(zhǔn)確率急劇下降,但置信度卻幾乎保持不變。這一發(fā)現(xiàn)促使研究團隊提出CA-TTS(Confidence-Aware Test-Time Scaling)框架,通過重新校準(zhǔn)模型對視覺證據(jù)的敏感度,在四個主流視覺推理基準(zhǔn)測試中實現(xiàn)平均8.8%的性能提升。

研究團隊將這種現(xiàn)象定義為“感知鈍化”:模型無法感知視覺信息質(zhì)量的變化,導(dǎo)致視覺證據(jù)明顯退化時仍維持高置信度。這種特性與人類在看不清題目時強行作答的行為高度相似。為解決該問題,團隊創(chuàng)新性地采用響應(yīng)級置信度度量方式,將整個輸出序列的平均負對數(shù)概率作為置信度指標(biāo),構(gòu)建了包含訓(xùn)練階段校準(zhǔn)與推理階段擴展的雙階段解決方案。

在訓(xùn)練階段,核心模塊CDRL(Confidence-Driven Reinforcement Learning)通過雙重獎勵機制重塑模型認知。感知敏感性獎勵要求模型對原始圖像與加噪圖像產(chǎn)生合理置信度差異,校準(zhǔn)一致性獎勵則對正確高置信預(yù)測給予獎勵,對錯誤高置信預(yù)測施加懲罰。實驗數(shù)據(jù)顯示,經(jīng)過CDRL訓(xùn)練的模型在面對噪聲圖像時,置信度下降幅度是訓(xùn)練前的4.3倍;在遮擋條件下,這一比值達到4.7倍。特別值得注意的是,訓(xùn)練前模型在視角變換和馬賽克干擾下置信度會反向上升,而訓(xùn)練后所有視覺擾動條件下的置信度均顯著下降。

推理階段的CA-TTS框架將校準(zhǔn)后的置信度轉(zhuǎn)化為動態(tài)調(diào)度信號,包含三個協(xié)同模塊:Self-Consistency采用置信度加權(quán)投票替代簡單多數(shù)投票,并引入專家模型進行二次校準(zhǔn);Self-Reflection在初步結(jié)果置信度不足時,由專家模型生成批評意見引導(dǎo)重新推理;Self-Check通過對比原始圖像與噪聲圖像的輸出概率分布,驗證答案對視覺證據(jù)的依賴程度。這種多階段驗證閉環(huán)設(shè)計使模型具備自我糾錯能力,在“墻上缺磚數(shù)量”等復(fù)雜推理任務(wù)中,相比Tree-of-Thoughts方法展現(xiàn)出更強的容錯性。

實驗結(jié)果表明,以Qwen2.5-VL-7B為基座模型的CA-TTS在Math-Vision基準(zhǔn)上將準(zhǔn)確率從23.0%提升至42.4%,在MMMU基準(zhǔn)上達到66.3%的準(zhǔn)確率。消融實驗顯示,單獨使用CDRL可提升3.4個百分點,單獨使用CA-TTS提升15.0個百分點,二者結(jié)合產(chǎn)生19.4個百分點的協(xié)同效應(yīng)。進一步分析發(fā)現(xiàn),即使讓基座模型自身充當(dāng)專家,性能仍比多數(shù)投票方法高出近5個百分點,證明框架有效性不依賴外部強模型。

在資源擴展性測試中,CA-TTS展現(xiàn)出顯著優(yōu)勢。當(dāng)采樣數(shù)量從1增加到32時,其準(zhǔn)確率增長斜率達到3.65,分別是多數(shù)投票方法和DeepConf方法的2.2倍和3.1倍。這意味著CA-TTS能更有效地將計算資源分配給真正不確定的問題,在相同算力消耗下實現(xiàn)更高的性能提升。這種特性重新定義了測試時擴展的效率上限,使“多算一點”具有明確的方向性。

該研究突破傳統(tǒng)多模態(tài)推理“先推理后感知”的固有范式,提出“先感知后推理”的新思路。通過建立對視覺證據(jù)變化敏感且與準(zhǔn)確性一致的置信度體系,確保推理過程建立在可靠的感知基礎(chǔ)之上。盡管多次采樣與專家模型調(diào)用會帶來額外計算成本,且當(dāng)前驗證主要集中在數(shù)學(xué)推理和通用視覺問答任務(wù),但這種將感知質(zhì)量與推理資源動態(tài)綁定的設(shè)計理念,為提升模型在關(guān)鍵場景中的可靠性提供了全新路徑。

 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 欧美日韩国产在线一区 | 午夜免费成人 | 伊人影院综合 | 超碰成人在线观看 | 懂色av粉嫩av蜜臀av一区二区三区 | 免费黄色小说视频 | 自拍在线观看 | 四虎成人永久免费视频 | 日本男人天堂 | 韩国一级淫一片免费放 | 欧美久久久久久久久久久久 | 99免费观看视频 | 国产精品网站在线 | 一区二区视频观看 | 久久国产精品久久精品国产 | 午夜在线影院 | 美女一区二区三区四区 | 奇米狠狠操 | 日本一级大毛片a一 | 性欧美另类 | 成人免费看片98欧美 | 亚洲精品乱码久久久久久日本蜜臀 | 青青青在线| 午夜看看 | av黄色在线播放 | 亚洲精品日韩丝袜精品 | 亚洲伦理久久 | 欧美在线色| 一区二区中文字幕 | 欧美综合视频在线 | 久热香蕉视频 | 97色综合 | 欧美激情婷婷 | 久久桃花| 成人激情综合网 | 国产成人一区二区 | 黄色国产视频网站 | 中文字幕欧美视频 | 黄色免费毛片 | 麻豆av网 | 岛国成人在线 |