谷歌近日宣布,其人工智能大模型Gemini 3迎來重大升級,推出專用推理模式Deep Think。該模式在多個高難度學術基準測試中刷新紀錄,全面超越競爭對手Claude Opus 4.6和GPT-5.2,同時在科學研究和工程應用領域展現出強大實力,成為當前最先進的AI推理工具之一。
在測試中,Deep Think模式表現尤為突出。在"人類終極測試"中,該模型以48.4%的成績創下新紀錄;在ARC-AGI-2基準測試中取得84.6%的高正確率;在競技編程平臺Codeforces的Elo評分達到3455分;更在2025年國際數學奧林匹克競賽模擬測試中達到金牌水準。該模型在物理、化學等科學領域的測試中也全面領先,包括在國際物理和化學奧林匹克競賽筆試環節均取得金牌成績,在凝聚態理論基準測試CMT-Benchmark中獲得50.5%的成績。
谷歌強調,Deep Think模式的研發不僅追求學術突破,更注重實際應用價值。該模式能夠協助研究人員解析復雜數據,幫助工程師通過代碼構建物理系統模型,特別擅長處理缺乏明確指導原則或數據不完整的問題。例如,在工程領域,Deep Think可將設計草圖自動轉化為3D打印文件,完成從圖紙分析到三維建模的全流程,用戶只需將生成的文件輸入打印機即可獲得實體模型。
在科學研究方面,Deep Think已展現出獨特優勢。該模型能夠識別高專業度數學論文中人工評審未發現的細微邏輯缺陷,還可優化復雜晶體生長的制備方法。在杜克大學的實驗中,Deep Think設計的方案成功培育出尺寸超過100微米的薄膜,技術指標超越所有現有方法。谷歌研發主管利用該模式加速物理組件設計,進一步驗證了其在工程領域的實用性。
目前,Deep Think模式主要面向Google AI Ultra訂閱用戶開放,同時允許科研人員、工程師和企業申請參與早期測試。這一升級標志著AI推理大模型向專業化方向邁出重要一步,為解決科研和工程領域的復雜挑戰提供了新的強大工具。
















