谷歌近日宣布對旗下人工智能模型Gemini 3 Deep Think進行全面升級,推出專為科學、研究與工程領域設計的“推理模式”。這一更新旨在應對真實科研場景中普遍存在的復雜問題,包括邊界模糊、解法多樣以及數據不完整等挑戰。開發團隊由谷歌工程師與多領域科學家共同組成,通過跨學科協作優化模型性能。
新版Deep Think的擴展策略分為兩個階段。自當地時間2月12日起,Google AI Ultra訂閱用戶可通過Gemini應用直接使用該功能。同時,谷歌啟動“早期訪問計劃”,通過Gemini API向特定研究人員、工程師及企業開放申請,首批用戶將參與模型在專業場景中的測試與反饋。
在性能驗證方面,谷歌公布了多項基準測試結果。數學領域,模型在終極人類考試(Humanity's Last Exam)中取得48.4%的準確率;算法推理測試ARC-AGI-2得分84.6%,成績經ARC Prize Foundation認證;編程能力方面,Codeforces競賽基準獲得3455的Elo評級,并在模擬2025年國際數學奧林匹克競賽中達到金牌水平。科學領域,模型在2025年國際物理與化學奧林匹克競賽筆試部分均獲金牌級表現,理論物理基準測試CMT-Benchmark得分50.5%。
谷歌強調,基準測試成績僅是技術驗證的一部分,實際應用價值才是核心目標。新版Deep Think已展現出輔助科研的潛力,例如幫助研究人員解析復雜數據集、為工程師提供物理系統建模的代碼框架。通過Gemini API的開放策略,谷歌計劃將技術能力精準輸送至專業領域,優先滿足高價值場景需求。
此次升級標志著谷歌在通用人工智能領域的布局進一步深化。與傳統模型不同,Deep Think的推理模式更注重解決開放性問題,其設計理念與科研工作流程高度契合。隨著早期訪問計劃的推進,模型將在更多垂直領域接受實戰檢驗,其性能優化方向也將根據用戶反饋動態調整。











