滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

多所高校聯合打造AI學術能力考場：深度研究代理的“能力邊界”何在？

時間：2026-01-25 17:15:33 來源：互聯網編輯：快訊 IP：北京 發表評論無障礙通道

在人工智能技術持續突破的背景下，多模態大語言模型已從單一文本處理向圖文協同理解演進。然而這類系統在執行學術研究任務時的真實表現，特別是能否像專業研究者般完成資料收集、證據分析和引用規范的研究報告撰寫，始終缺乏系統性評估。近日，由國際多所頂尖高校與科技企業聯合完成的研究，首次構建了針對深度研究代理（DRA）的綜合性評測體系，為評估AI學術能力提供了新維度。

研究團隊開發的MMDeepResearch-Bench評測平臺（簡稱MMDR-Bench），設計了覆蓋21個學科領域的140個專家級任務。這些任務分為日常信息處理和學術研究兩大類，前者涉及產品說明解析、健康圖表解讀等場景，后者則包含科學圖表分析、技術原理圖闡釋等復雜任務。每個任務均由博士級專家設計，確保需要同時處理文本與視覺信息，且所有結論均可通過引用驗證。

在對25個主流AI系統的測試中，Gemini深度研究系統以49.41分（滿分100）領跑，其優勢體現在證據質量和引用對齊能力。值得注意的是，不同模型在能力維度上呈現顯著差異：部分系統文本生成流暢但引用混亂，另一些雖能精準引用卻難以處理復雜圖表。研究特別指出，添加視覺處理模塊未必提升性能，某些模型在讀取表格數字、日期標簽等細節時錯誤率反而上升，暴露出當前視覺理解技術的局限性。

評測發現多模態整合與引用嚴謹性存在矛盾：某些系統能準確關聯圖文信息，但引用規范不足；專業研究代理雖擅長多步驟驗證，卻常在實體識別環節出錯。研究還揭示，模型性能提升的關鍵不在于規模擴張，而在于基礎架構優化與檢索交互設計。部分離線模型因檢索策略高效，甚至超越了具備網絡搜索能力的模型。

為驗證評估可靠性，研究團隊邀請12位領域專家進行獨立評審。結果顯示，完整評估框架與專家判斷的一致性達73.5%，相關性達96.4%，顯著優于傳統提示詞評估方法。這表明該體系能較準確地反映AI系統的真實研究能力。

Q&A環節中，研究團隊解釋了MMDR-Bench的獨特價值：該平臺通過標準化任務設計，首次實現了對AI學術研究能力的全流程評估。針對視覺能力反降性能的現象，團隊指出當前模型在處理微小文字、復雜排版等視覺細節時仍存在技術瓶頸。對于用戶使用建議，專家強調應建立"人機協作"機制，將AI定位為信息篩選工具而非最終決策者。

02-11

千問App持續發力：日活用戶超7352萬，6天穩居App Store免費榜首

02-11

科技豪華雙驅動騰勢D9三年銷冠重塑全球高端MPV新格局

02-11

臺積電批準發放2061億新臺幣獎金業績激勵與利潤分紅雙管齊下

02-11

智駕座艙雙進化！阿維塔 AVATR.OS 5.0 正式推送：MoLA 大模型上車，首批直達華為 ADS 4.1

02-11

千問App表現強勁:日活突破7352萬，連續6天領跑App Store免費榜

02-11

GLM-5架構細節浮出水面：DeepSeek仍是繞不開的門檻

02-11

螞蟻開源新一代全模態大模型Ming-Flash-Omni 2.0

02-11

阿維塔AVATR.OS 5.0.0版本推送：MoLA大模型助手上線

02-11

千問DAU達到7352萬，逼平豆包

02-11

電商AI客服擅自承諾顧客巨額折扣：商家面臨法律糾紛

02-11

DeepSeek突然測試新模型，上下文已到百萬級

02-11

螞蟻集團開源 Ming-Flash-Omni 2.0

02-11

螞蟻集團開源 Ming-flash-omni 2.0

02-11

Runway完成3.15億美元E輪融資，估值飆升至53億美元，推動下一代AI世界模型

02-11

點擊查看更多 +

全站最新

麥格理：首予文遠知行"跑贏大市"評級，目標價46港元/17.5美元

京東方等在上海成立顯示技術公司注冊資本1億

天津海河產業基金等成立人工智能合伙企業出資額1億

多家快遞回應“停運”傳聞，現存物流快遞相關企業超131萬家

春節前機器人走穴表演忙，現存機器人相關企業超105萬家

河北“藥店價格熱力圖”上線，現存藥品零售相關企業超113萬家

熱門內容

本欄最新

長城魏牌V9X來襲！近5米3大身軀，2.0T插混續航超千公里，實力幾何？

央視聚焦東風汽車：以創新智造引領，驅動中國汽車產業穩健邁向新征程

閔行新春沙龍：網絡創作者共探優質內容創作，共繪閔行發展新畫卷

理想汽車新突破：全新L9馬赫100雙芯片有效算力遠超英偉達Thor U

問界星光之夜余承東解讀品牌命名，大模型AI將升級老車主，銷量目標再沖刺

長城補齊產品短板！魏牌V9X官圖曝光，攜新技術入局綠牌全尺寸SUV賽道

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

多所高校聯合打造AI學術能力考場：深度研究代理的“能力邊界”何在？