谷歌近日宣布完成Gemini3DeepThink模型的重大升級,這款專為科學工程領域設計的推理系統在多項基準測試中展現出突破性表現。新模型不僅在學術評測中超越現有頂尖AI系統,更在實際應用場景中展現出解決復雜問題的獨特能力,引發科技界廣泛關注。
在備受矚目的"人類最后的考試"測試中,DeepThink在不借助外部工具的情況下取得48.4%的得分,較第二名ClaudeOpus4.6高出8.4個百分點,較GPT-5.2提升近14個百分點。該測試以涵蓋數學、物理、化學等領域的跨學科難題著稱,此前從未有模型突破45%得分線。在抽象推理基準ARC-AGI-2測試中,DeepThink以84.6%的準確率刷新紀錄,較前最佳模型提升超過20個百分點,展現出強大的模式識別能力。
編程能力評測顯示,DeepThink在Codeforces平臺獲得3455的Elo評分,躋身全球前8%頂尖程序員行列。更引人注目的是其在科學競賽中的表現——在2025年國際物理和化學奧賽模擬筆試中,該模型達到金牌標準,驗證了其在基礎科學領域的深厚積累。谷歌透露,新版本特別強化了研究級數學探索能力,可支持科研人員開展前沿理論推導。
實際應用案例印證了模型的實用價值。羅格斯大學數學家LisaCarbone團隊利用DeepThink審閱高能物理領域論文時,發現人工評審遺漏的邏輯漏洞,這是該模型首次在專業學術評審中展現價值。杜克大學材料科學團隊借助其優化晶體生長方案,成功培育出尺寸突破100微米的薄膜材料,相關技術指標超越現有所有制備方法。在工程建模領域,DeepThink已能通過分析圖紙自動生成3D打印文件,實現復雜物理系統的數字化建模。
技術突破背后是跨學科團隊的協同創新。清華物理系出身的姚順宇作為核心成員,將理論物理思維融入模型架構設計。谷歌CEO桑達爾·皮查伊特別強調,新模型通過整合科學知識體系與工程實踐經驗,專門針對數據不完整、標準模糊的現實挑戰進行優化,這種設計理念使其區別于傳統通用大模型。
行業專家對測試結果表示震驚。某AI實驗室負責人指出,ARC-AGI-2測試84.6%的得分具有里程碑意義,"當AI在抽象推理任務中超越90%人類時,我們正在見證認知革命的關鍵轉折"。前谷歌工程師評論稱,發現同行評審漏洞的案例證明AI已從輔助工具進化為科研合作者,"這標志著人機協作模式進入全新階段"。
目前DeepThink已通過Gemini應用向GoogleAIUltra訂閱用戶開放,同時通過GeminiAPI向特定科研機構和企業提供服務。谷歌表示,未來將持續優化模型在材料科學、生物醫藥等領域的專項能力,并探索與科研機構的深度合作模式。這項突破預示著AI技術正在從數據處理層面向基礎科學創新領域滲透,可能引發科研方法的系統性變革。











