滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內(nèi)容

多模態(tài)DeepResearch新突破：小參數(shù)模型也能打出SOTA，開啟研究新范式

時間：2026-02-24 14:57:02 來源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評論無障礙通道

在人工智能研究領域，多模態(tài)深度研究正成為突破傳統(tǒng)信息處理邊界的關(guān)鍵方向。傳統(tǒng)模型在處理視覺與文本融合任務時，往往面臨兩大核心挑戰(zhàn)：視覺檢索命中率不穩(wěn)定與推理深度不足。針對這些問題，最新研究提出將信息檢索從單次操作升級為動態(tài)交互過程，通過多輪試探、反饋與再檢索的循環(huán)機制，使模型在復雜環(huán)境中具備持續(xù)縮小搜索范圍、驗證關(guān)鍵信息的能力。

現(xiàn)有技術(shù)路線存在顯著缺陷。單次全圖檢索易受背景噪聲干擾，同一實體在不同尺度下的檢索結(jié)果波動劇烈，導致關(guān)鍵信息遺漏。多數(shù)模型推理軌跡短、工具調(diào)用次數(shù)有限，難以完成多跳證據(jù)聚合與復雜問題的試錯式驗證。研究團隊通過構(gòu)建多尺度視覺檢索系統(tǒng)，結(jié)合文本深度研究能力，成功將推理輪數(shù)提升至數(shù)十輪，搜索引擎交互次數(shù)突破百次量級，顯著增強了模型在噪聲環(huán)境中的穩(wěn)定性。

技術(shù)實現(xiàn)包含三大核心模塊。視覺檢索階段采用多實體定位與多尺度裁剪策略，模型自動生成多個邊界框并對不同區(qū)域并行檢索，有效提升關(guān)鍵信息捕獲率。證據(jù)處理階段構(gòu)建視覺-網(wǎng)頁-摘要-驗證的閉環(huán)流程，通過輔助模型過濾噪聲數(shù)據(jù)并提煉核心證據(jù)。跨模態(tài)推理階段將成熟的文本深度研究能力遷移至視覺領域，實現(xiàn)圖文信息的深度融合。訓練體系采用"長軌跡合成-冷啟動監(jiān)督微調(diào)-在線強化學習"的三階段方案，通過約3萬條高質(zhì)量軌跡數(shù)據(jù)完成初始訓練，再利用真實搜索環(huán)境中的強化學習優(yōu)化策略。

實驗數(shù)據(jù)驗證了技術(shù)路線的有效性。在VDR、FVQA等六個主流基準測試中，80億參數(shù)模型在相同設置下較前代產(chǎn)品平均提升10.4%，300億參數(shù)版本進一步將優(yōu)勢擴大至16%。特別值得注意的是，該模型在參數(shù)規(guī)模僅為GPT-5、Gemini-2.5-Pro等閉源系統(tǒng)十分之一的情況下，仍能取得相當甚至更優(yōu)的性能表現(xiàn)。消融實驗表明，多尺度裁剪策略使視覺命中率提升37%，結(jié)合文本搜索后整體準確率再提高22%，強化學習階段則通過優(yōu)化決策路徑使步驟效率提升40%。

評測體系革新為技術(shù)發(fā)展提供新標準。傳統(tǒng)基準存在兩大系統(tǒng)性漏洞：問題文本常泄露答案線索，導致模型依賴先驗知識繞過視覺驗證；全圖檢索場景過于理想化，未能反映真實環(huán)境中的定位、裁剪與試錯需求。新提出的VDR-Bench基準包含2000條強制視覺搜索的多跳問題，覆蓋產(chǎn)品細節(jié)、地圖標識、報告表格等十大視覺領域。該基準通過人工裁剪顯著區(qū)域、實體驗證、知識圖譜擴展等嚴格流程，確保問題必須依賴局部檢索與多跳推理才能解答，有效杜絕了文本捷徑與全圖檢索漏洞。

技術(shù)突破帶來應用場景的質(zhì)變。在醫(yī)療診斷領域，模型可同時分析X光片與病歷文本，通過多輪交互驗證異常特征；在金融分析場景中，系統(tǒng)能夠交叉比對財報截圖與新聞文本，精準識別數(shù)據(jù)矛盾點；法律文書審查時，模型可自動定位合同條款與相關(guān)法條，構(gòu)建完整的證據(jù)鏈條。這些應用場景的共同特點是信息高度分散、需要跨模態(tài)深度推理，傳統(tǒng)模型往往因推理深度不足或視覺檢索不穩(wěn)定而失效。

研究團隊指出，多模態(tài)深度研究的核心挑戰(zhàn)在于構(gòu)建噪聲環(huán)境下的穩(wěn)定推理閉環(huán)。通過將檢索-推理過程分解為可量化的子任務，結(jié)合大規(guī)模合成數(shù)據(jù)與強化學習技術(shù)，模型能夠自主形成"定位關(guān)鍵區(qū)域-驗證視覺證據(jù)-補充文本知識-再定位新區(qū)域"的迭代機制。這種內(nèi)生能力的形成，標志著人工智能系統(tǒng)向更接近人類認知模式的方向邁出重要一步，為解決復雜現(xiàn)實問題提供了新的技術(shù)范式。

更多>同類資訊

GPT-5.4重磅登場：能力效率雙提升，開啟AI數(shù)字員工新時代

它更像是一個“模型能力大一統(tǒng)”成果：OpenAI首次在單一模型中，把推理（Reasoning）、編程（Coding）、計算機原生交互（Computer Use）、深度網(wǎng)頁搜索以及百萬級Token上下文…

03-07

上海AI產(chǎn)業(yè)規(guī)模突破6370億，149款生成式AI服務備案，月底全球開發(fā)者大會啟幕

“2025年，上海394家規(guī)上人工智能企業(yè)實現(xiàn)產(chǎn)業(yè)規(guī)模超6370億元，同比增速達39.5%；截至2月28日，上海累計已完成149款生成式人工智能服務備案，人工智能產(chǎn)業(yè)成為拉動全市GDP增長的重要引擎。”在3…

03-07

OpenAI推出GPT-5.4模型：具備原生計算機操作能力開啟智能體新篇

OpenAI正式發(fā)布GPT-5.4模型，這是該公司最新版本的AI模型，據(jù)稱在推理、編程以及涉及電子表格、文檔和演示文稿的專業(yè)工作方面實現(xiàn)了重大突破。 A：GPT-5.4是OpenAI首個具備原生計算機使用能…

03-07

OpenAI推ChatGPT for Excel測試版：自然語言指令讓表格操作更智能高效

03-07

科技與情感的碰撞：從王興興相親看新時代擇偶觀的多元與平衡

03-07

OpenAI推Codex開源計劃助力開發(fā)者免費暢享半年ChatGPT Pro

03-07

NAND閃存價格或持續(xù)走高：三星Q2擬再漲，AI需求與供應收緊成推手

03-07

智駕新標桿來襲！iCAR V27 3月13日上市，全場景輔助駕駛超絲滑

03-07

2026全球開發(fā)者先鋒大會將啟，上海AI盛宴共探前沿技術(shù)與產(chǎn)業(yè)新篇

03-07

英偉達黃仁勛預言：未來軟件全面“智能體化”，傳統(tǒng)模式向“Token租賃”轉(zhuǎn)變

IT之家 3 月 7 日消息，科技媒體 constellationr 昨日（3 月 6 日）發(fā)布博文，報道稱在摩根士丹利科技大會上，英偉達CEO 黃仁勛拋出重磅論斷：未來所有軟件都將全面“智能體化（Agen…

03-07

OpenAI推出GPT-5.4模型：智能體能力升級，復雜任務處理更高效

OpenAI正式發(fā)布GPT-5.4模型，這是該公司最新版本的AI模型，據(jù)稱在推理、編程以及涉及電子表格、文檔和演示文稿的專業(yè)工作方面實現(xiàn)了重大突破。 A：GPT-5.4是OpenAI首個具備原生計算機使用能…

03-07

OpenAI推出Codex Security工具：AI助力代碼審計，加速安全漏洞修復進程

月 7 日消息，OpenAI 現(xiàn)已推出 Codex Security AI 工具，主要面向代碼安全審計場景。據(jù)介紹，CodexSecurity 主要使用前沿 AI 模型推理能力結(jié)合自動化驗證機制解決安全審…

03-07

黃仁勛預言：未來軟件全面“智能體化”，傳統(tǒng)授權(quán)模式將轉(zhuǎn)向“Token租賃”

IT之家 3 月 7 日消息，科技媒體 constellationr 昨日（3 月 6 日）發(fā)布博文，報道稱在摩根士丹利科技大會上，英偉達CEO 黃仁勛拋出重磅論斷：未來所有軟件都將全面“智能體化（Agen…

03-07

三星Galaxy手機或引入氛圍編程，普通用戶動動嘴就能定制專屬應用與UI

月 7 日消息，在接受外媒 TechRadar 采訪時，三星移動體驗業(yè)務負責人崔元俊（Won-JoonChoi）表示，三星正探索將氛圍編程（vibe coding）技術(shù)引入 Galaxy 手機。 IT之家援…

03-07

OpenAI推出GPT-5.4模型：具備原生計算機操作能力開啟智能體新篇章

OpenAI正式發(fā)布GPT-5.4模型，這是該公司最新版本的AI模型，據(jù)稱在推理、編程以及涉及電子表格、文檔和演示文稿的專業(yè)工作方面實現(xiàn)了重大突破。 A：GPT-5.4是OpenAI首個具備原生計算機使用能…

03-07

點擊查看更多 +

全站最新

雷軍談AI時代：工作模式或巨變未來每周3天每天2小時成可能

雷軍談AI時代工作新模式引熱議，AI是把雙刃劍還是解放人力新契機？

長途寄大件別亂選！巧用比價平臺+合理打包，省錢寄件攻略來了

2026款海獅06EV煥新登場！第二代刀片電池加持續(xù)航駕控智能全面升級

凱越450RR曼島Ⅱ煥新登場：價格親民升級多，能否力壓春風四缸SR？

大眾新車棄雙離合用8AT，配置實用價格親民，能否打動消費者？

熱門內(nèi)容

本欄最新

AI賦能自媒體運營：六步搭建“人工智能應用”資訊自動發(fā)文流水線

“豬茅”牧原股份港股上市布局海外，智能化與出海能否開啟新增長？

華為中國合作伙伴大會2026 3月深圳啟幕共繪千行萬業(yè)數(shù)智化新藍圖

Anthropic再傳喜訊：Claude日新增用戶超百萬收入增長但成本高企

宋Ultra EV預售開啟：二代刀片電池加持，15.5萬起重塑B級純電SUV格局

零代碼也能輕松建站？AI工具讓網(wǎng)站搭建從技術(shù)活變簡單操作

本網(wǎng)站LOGO小熊標志受版權(quán)保護，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) 魯ICP備11015305號-1 聯(lián)系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

多模態(tài)DeepResearch新突破：小參數(shù)模型也能打出SOTA，開啟研究新范式