谷歌DeepMind團隊近日宣布,在Gemini 3 Flash模型中引入了一項名為“智能體視覺”的創新功能。這一突破性技術將傳統AI被動處理圖像的方式轉變為動態交互模式,通過模擬人類認知過程顯著提升了視覺理解能力。
傳統AI模型在解析圖像時通常采用單次掃描機制,這種靜態處理方式在面對復雜場景時容易遺漏關鍵細節。例如識別芯片序列號或遠處路牌時,模型往往因信息缺失而被迫進行概率性推測。新功能通過構建“思考-行動-觀察”的閉環系統,使模型能夠主動操作圖像數據,形成可驗證的推理鏈條。
該系統的運作機制分為三個階段:首先在思考階段,模型會分析用戶查詢和初始圖像,制定包含多步驟的操作計劃;隨后進入行動階段,通過生成并執行Python代碼實現圖像裁剪、旋轉、標注等操作,或進行邊界框計算等分析;最后在觀察階段,將處理后的圖像數據納入上下文窗口,為后續決策提供更豐富的信息基礎。
技術測試數據顯示,引入代碼執行能力后,模型在多個視覺基準測試中的表現提升5-10%。在建筑圖紙分析平臺PlanCheckSolver.com的驗證中,通過針對性裁剪屋頂邊緣等高分辨率區域,模型準確率提高了5個百分點。這種改進得益于系統能夠主動聚焦關鍵區域,而非依賴全局掃描。
在數學視覺問題處理方面,新功能展現出獨特優勢。面對需要多步驟推理的圖表分析任務,模型不再進行概率性猜測,而是通過編寫代碼提取原始數據,并調用Matplotlib等專業庫生成精確可視化圖表。這種機制有效解決了大型語言模型在處理復雜視覺算術時常見的“幻覺”問題,確保輸出結果的可靠性。
當前版本的Gemini 3 Flash已具備智能判斷能力,能夠自主決定何時需要放大圖像細節。研究團隊透露,后續迭代將進一步優化自動化水平,使模型無需用戶提示即可自動執行圖像旋轉、視覺運算等復雜操作,持續提升人機交互的流暢度。









