谷歌近日宣布對旗下人工智能模型Gemini 3 Deep Think進行重大升級,推出專為科學、研究與工程領域設計的"推理模式"。這一版本由谷歌工程師與多領域科研人員聯合開發,旨在解決真實科研場景中普遍存在的復雜問題,包括邊界模糊、多解并存以及數據不完整等挑戰。

在應用范圍方面,更新后的Deep Think自2月12日起通過Gemini應用向Google AI Ultra訂閱用戶開放。同時,谷歌首次通過Gemini API向特定研究人員、工程師和企業開放"早期訪問計劃",并設置申請通道招募測試用戶。這一舉措標志著該技術開始從實驗室走向實際應用場景。
性能測試顯示,新版模型在數學與編程領域表現突出。在不借助外部工具的情況下,該模型在終極人類考試(Humanity's Last Exam)中取得48.4%的成績,在ARC-AGI-2測試中達到84.6%(經ARC Prize Foundation驗證),在Codeforces編程競賽基準中獲得3455的Elo評分,更在2025年國際數學奧林匹克競賽模擬測試中達到金牌水平。這些數據表明其推理能力已接近人類頂尖水平。
除計算領域外,模型在自然科學方面同樣展現優勢。在2025年國際物理奧林匹克與國際化學奧林匹克模擬筆試中,該模型均取得金牌級成績,并在理論物理基準測試CMT-Benchmark中獲得50.5%的得分。這些突破使其成為首個在多學科奧賽級別測試中均表現優異的人工智能系統。

谷歌強調,Deep Think的研發不僅關注基準測試分數,更注重實際科研與工程應用。該模型可協助研究人員解析復雜數據集,幫助工程師通過代碼構建物理系統模型。通過Gemini API的早期訪問計劃,谷歌希望將這項技術推廣至科研機構和工業界,解決真實世界中的技術難題。目前,首批測試用戶已開始在氣候建模、新材料開發等領域展開應用探索。







