滾動資訊

當(dāng)前位置：首頁 > 資訊 > 業(yè)界動態(tài) > 正文內(nèi)容

浙大等團隊攻克多模態(tài)模型“幻覺”難題：先感知校準(zhǔn)，后推理算力巧分配

時間：2026-03-22 19:09:35 來源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評論無障礙通道

當(dāng)圖像逐漸模糊直至難以辨認時，多模態(tài)大模型依然會給出高度自信的答案——這種“盲目自信”現(xiàn)象正成為視覺推理領(lǐng)域的關(guān)鍵挑戰(zhàn)。浙江大學(xué)、阿里巴巴集團、香港城市大學(xué)與密歇根大學(xué)聯(lián)合團隊通過實驗發(fā)現(xiàn)，隨著圖像噪聲增強，模型準(zhǔn)確率急劇下降，但置信度卻幾乎保持不變。這一發(fā)現(xiàn)促使研究團隊提出CA-TTS（Confidence-Aware Test-Time Scaling）框架，通過重新校準(zhǔn)模型對視覺證據(jù)的敏感度，在四個主流視覺推理基準(zhǔn)測試中實現(xiàn)平均8.8%的性能提升。

研究團隊將這種現(xiàn)象定義為“感知鈍化”：模型無法感知視覺信息質(zhì)量的變化，導(dǎo)致視覺證據(jù)明顯退化時仍維持高置信度。這種特性與人類在看不清題目時強行作答的行為高度相似。為解決該問題，團隊創(chuàng)新性地采用響應(yīng)級置信度度量方式，將整個輸出序列的平均負對數(shù)概率作為置信度指標(biāo)，構(gòu)建了包含訓(xùn)練階段校準(zhǔn)與推理階段擴展的雙階段解決方案。

在訓(xùn)練階段，核心模塊CDRL（Confidence-Driven Reinforcement Learning）通過雙重獎勵機制重塑模型認知。感知敏感性獎勵要求模型對原始圖像與加噪圖像產(chǎn)生合理置信度差異，校準(zhǔn)一致性獎勵則對正確高置信預(yù)測給予獎勵，對錯誤高置信預(yù)測施加懲罰。實驗數(shù)據(jù)顯示，經(jīng)過CDRL訓(xùn)練的模型在面對噪聲圖像時，置信度下降幅度是訓(xùn)練前的4.3倍；在遮擋條件下，這一比值達到4.7倍。特別值得注意的是，訓(xùn)練前模型在視角變換和馬賽克干擾下置信度會反向上升，而訓(xùn)練后所有視覺擾動條件下的置信度均顯著下降。

推理階段的CA-TTS框架將校準(zhǔn)后的置信度轉(zhuǎn)化為動態(tài)調(diào)度信號，包含三個協(xié)同模塊：Self-Consistency采用置信度加權(quán)投票替代簡單多數(shù)投票，并引入專家模型進行二次校準(zhǔn)；Self-Reflection在初步結(jié)果置信度不足時，由專家模型生成批評意見引導(dǎo)重新推理；Self-Check通過對比原始圖像與噪聲圖像的輸出概率分布，驗證答案對視覺證據(jù)的依賴程度。這種多階段驗證閉環(huán)設(shè)計使模型具備自我糾錯能力，在“墻上缺磚數(shù)量”等復(fù)雜推理任務(wù)中，相比Tree-of-Thoughts方法展現(xiàn)出更強的容錯性。

實驗結(jié)果表明，以Qwen2.5-VL-7B為基座模型的CA-TTS在Math-Vision基準(zhǔn)上將準(zhǔn)確率從23.0%提升至42.4%，在MMMU基準(zhǔn)上達到66.3%的準(zhǔn)確率。消融實驗顯示，單獨使用CDRL可提升3.4個百分點，單獨使用CA-TTS提升15.0個百分點，二者結(jié)合產(chǎn)生19.4個百分點的協(xié)同效應(yīng)。進一步分析發(fā)現(xiàn)，即使讓基座模型自身充當(dāng)專家，性能仍比多數(shù)投票方法高出近5個百分點，證明框架有效性不依賴外部強模型。

在資源擴展性測試中，CA-TTS展現(xiàn)出顯著優(yōu)勢。當(dāng)采樣數(shù)量從1增加到32時，其準(zhǔn)確率增長斜率達到3.65，分別是多數(shù)投票方法和DeepConf方法的2.2倍和3.1倍。這意味著CA-TTS能更有效地將計算資源分配給真正不確定的問題，在相同算力消耗下實現(xiàn)更高的性能提升。這種特性重新定義了測試時擴展的效率上限，使“多算一點”具有明確的方向性。

該研究突破傳統(tǒng)多模態(tài)推理“先推理后感知”的固有范式，提出“先感知后推理”的新思路。通過建立對視覺證據(jù)變化敏感且與準(zhǔn)確性一致的置信度體系，確保推理過程建立在可靠的感知基礎(chǔ)之上。盡管多次采樣與專家模型調(diào)用會帶來額外計算成本，且當(dāng)前驗證主要集中在數(shù)學(xué)推理和通用視覺問答任務(wù)，但這種將感知質(zhì)量與推理資源動態(tài)綁定的設(shè)計理念，為提升模型在關(guān)鍵場景中的可靠性提供了全新路徑。

03-22

Meta元宇宙仍在探索，扎克伯格重心悄然移至AI新賽道

03-22

馬斯克TERAFAB工廠開建，太瓦級算力助力人類向星際文明大步邁進

03-22

OPPO Find N6全球熱銷，多國大使點贊無感折痕，首銷日創(chuàng)折疊屏新紀(jì)錄

03-22

雷軍回應(yīng)SU7漲價：配置升級體驗提升，4000元漲幅物超所值

03-22

Redmi K100 Pro Max或登場？音質(zhì)馬達再升級 2億像素主攝成亮點

03-22

OpenAI加速擴張：年底前員工增至8000人，設(shè)新崗應(yīng)對激烈競爭

03-22

馬斯克提出新構(gòu)想：Optimus+PV或開啟馮諾依曼探測器時代

特斯拉CEO埃隆·馬斯克在社交平臺公開表示，Optimus+PV將成為首個馮諾依曼探測器。資料顯示，馮諾依曼探測器概念源自20世紀(jì)40年代數(shù)學(xué)家約翰·馮·諾依曼提出的理論模型。該模型描述了一種能夠自我復(fù)制的…

03-22

地平線人均年薪132萬卻巨虧超百億，“燒錢”豪賭未來能否突圍？

03-22

內(nèi)存芯片成本攀升引發(fā)連鎖反應(yīng)：手機價格普漲，千元機型或成歷史

03-22

Cursor“套殼”變合作，Kimi接棒DeepSeek成全球AI開源新焦點

03-22

英偉達智駕：從技術(shù)突破到生態(tài)野心，自動駕駛未來已來？

03-22

Nothing Phone(4a)深度體驗：褪去鋒芒，以獨特設(shè)計在中端市場獨樹一幟

03-22

宇樹科技沖刺科創(chuàng)板：“全球第一”光環(huán)下，機器人商業(yè)化能否經(jīng)受住考驗？

03-22

AI或成科研新引擎？哈佛學(xué)者預(yù)言：人類智能遇瓶頸，AI將催生萬名“愛因斯坦”

03-22

點擊查看更多 +

全站最新

智能經(jīng)濟浪潮下，高校雙創(chuàng)教育如何破局與轉(zhuǎn)型？

京東JD FASHION亮相中國國際時裝周：以自研科技面料引領(lǐng)服飾品質(zhì)新潮流

OpenClaw爆火，AI Agent時代真的來了！

股價一年狂飆，鋰鹽巨頭仍被低估？

開放式耳夾耳機怎么選？虹覓Clip Pro、漫步者QQ夾、聲闊C30i實測對比，幫你精準(zhǔn)避坑！

傳統(tǒng)批發(fā)企業(yè)破局之道：12個月線上突圍，營收躍升的實戰(zhàn)策略全解析

熱門內(nèi)容

本欄最新

京東JD FASHION亮相中國國際時裝周：以自研科技面料引領(lǐng)服飾品質(zhì)新潮流

傳統(tǒng)批發(fā)企業(yè)破局之道：12個月線上突圍，營收躍升的實戰(zhàn)策略全解析

易車汽車之家雙認證！新一代小米SU7續(xù)航實測驚人，告別續(xù)航焦慮！

小米汽車專利首戰(zhàn)“小廠”來襲！三項外觀專利遭挑戰(zhàn)，下周口審揭曉結(jié)果

華為896線程激光雷達加持，阿維塔12價格公布，市場前景幾何？

比亞迪ATTO 3 Evo英國上市：入門版加速5.5秒，高配版3.9秒破百

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR比爾科技官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) 魯ICP備11015305號-1 聯(lián)系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

浙大等團隊攻克多模態(tài)模型“幻覺”難題：先感知校準(zhǔn)，后推理算力巧分配

浙大等團隊攻克多模態(tài)模型“幻覺”難題：先感知校準(zhǔn)，后推理算力巧分配