中國科學院自動化研究所聯合多所國內外高校,共同推出了一項名為Agentic-MME的新型人工智能評估基準測試。這項研究突破了傳統評估方式的局限,首次建立了以過程驗證為核心的評估體系,為人工智能系統解決復雜現實問題提供了全新的衡量標準。研究團隊通過構建包含418個真實世界任務的測試集,系統評估了AI系統在主動探索和知識整合方面的能力。
傳統評估方法主要測試AI被動觀察圖像后回答問題的能力,類似于讓學生僅通過教科書封面猜測內容。而新基準測試要求AI系統扮演雙重角色:既要像考古學家一樣運用放大鏡、特殊燈光等13種視覺工具分析圖像細節,又要像研究員一樣通過搜索引擎、圖片反向搜索等4種知識工具獲取背景信息。這種設計使評估更接近人類解決實際問題的過程。
測試任務按復雜程度分為三個等級。初級任務要求AI完成單步視覺操作,如從超市貨架照片中裁剪并放大價格標簽;中級任務需要結合視覺處理和知識搜索,例如識別建筑物標識后查找其歷史信息;高級任務則涉及模糊線索的假設驗證循環,如通過多次圖像處理和搜索確定模糊商標的真實身份。研究團隊特別設計了"模型在環后向設計"方法,確保任務必須通過主動工具使用才能解決。
過程驗證體系是該研究的核心創新。雙軸驗證機制分別檢查策略執行和視覺證據:S軸審查員評估搜索策略是否合理,包括關鍵詞選擇和信息獲取方式;V軸審查員驗證視覺工具生成的中間結果是否包含有效信息。研究團隊建立了超過2000個檢查點,平均每個任務包含5個以上驗證步驟,并引入"過度思考"懲罰機制,對冗余操作進行扣分。
為兼容不同AI系統,研究團隊開發了統一評估框架,支持代碼生成和原子工具兩種交互模式。代碼生成模式允許AI編寫Python代碼處理圖像,原子工具模式則提供標準化接口調用預定義功能。框架通過抽象語法樹分析技術標準化代碼操作序列,自動處理圖像格式、命名約定等技術細節,確保評估公平性。
實驗結果顯示,最先進的Gemini-3 Pro系統整體準確率僅為56.3%,在高級任務中降至33.3%,而人類專家可達93.8%。開源系統表現更差,Qwen3 VL-235B在高級任務中準確率僅10.1%。結構化工具接口普遍優于代碼生成模式,但后者在復雜操作組合方面具有獨特優勢。AI系統常出現"行動消極"問題,約50%的錯誤源于不愿使用可用工具。
研究團隊對失敗案例進行詳細分類,發現七種主要錯誤模式:行動消極、過度思考陷阱、不忠實工具使用等。不同難度任務呈現不同錯誤分布,簡單任務主要是行動消極,復雜任務則更多出現搜索策略失誤和工具使用不當。代碼生成模式易犯工具執行錯誤,原子工具模式則在高層次規劃方面存在問題。
為驗證基準測試有效性,研究團隊進行了多項控制實驗。移除圖像內容后AI準確率幾乎為零,證明任務確實需要視覺信息;比較不同工具使用設置發現,僅用圖像工具可能降低性能,僅用搜索工具改進有限,兩者結合效果最佳;"神諭指導"實驗顯示,即使提供人工標注的中間結果,AI在高級任務上仍難達到完美表現。
該研究公開了完整數據集、評估工具和基準測試代碼,為AI研究社區提供重要資源。過程驗證體系表明,訓練AI系統的中間推理步驟與最終答案同樣重要,未來訓練可能需要更多關注"如何思考"。這項工作為衡量AI多模態推理能力提供了可靠標準,指出實現真正智能需要提升規劃能力、工具使用技巧和多步推理能力。











