谷歌近日宣布對其深度思考模型Gemini 3 Deep Think進行重大升級,將專業推理能力從理論研究推向實際應用場景。此次升級聚焦于解決科研與工程領域的復雜問題,標志著谷歌在企業級人工智能市場展開新一輪戰略布局。
根據官方披露,升級后的模型在多項行業基準測試中取得突破性進展。在被稱為"人類最后考試"的Humanity's Last Exam(HLE)和ARC-AGI-2測試中,模型取得84.6%的準確率,該成績已通過ARC Prize基金會認證。在競技編程平臺Codeforces上,其Elo評分達到3455分,展現出強大的編程能力。更引人注目的是,該模型在2025年國際物理奧林匹克和化學奧林匹克的筆試部分均達到金牌標準,在CMT-Benchmark高級理論物理測試中取得50.5%的分數。
性能對比數據顯示,Gemini 3 Deep Think在關鍵測試中全面領先競爭對手。在ARC-AGI-2測試中,其準確率比Anthropic的Claude Opus 4.6高出15.8個百分點,較OpenAI的GPT-5.2高出31.7個百分點。這種優勢不僅體現在單一測試,而是貫穿數學、物理、化學等多個學科領域,顯示出跨學科推理能力的顯著提升。
谷歌此次升級采用分層開放策略。Google AI Ultra訂閱用戶可通過應用程序立即使用新功能,研究人員和企業用戶則可通過Gemini API申請早期訪問。這種雙軌制既保持了消費市場的活躍度,又精準對接了高價值企業客戶的需求。模型與谷歌知識圖譜、科學數據集的深度整合,為用戶提供了其他獨立AI服務難以比擬的計算資源和數據支持。
企業級市場的競爭格局正在發生深刻變化。評估標準從簡單的代碼生成或文檔總結,轉向模型處理復雜財務模型、分析實驗數據、識別方法論缺陷等核心能力。谷歌通過將深度思考模型嵌入Workspace和Cloud Platform生態系統,構建起基礎設施與分銷渠道的雙重優勢。這種戰略布局使其在專業推理引擎領域與OpenAI的o1系列、Anthropic的Claude形成直接競爭。
行業觀察家指出,這場競爭的本質是通用響應速度與深度推理能力的博弈。應用程序可能采用分層架構,將簡單查詢分配給標準模型,復雜問題則交由推理模式處理。谷歌官方聲明強調,升級后的模型已幫助研究人員解決"不可解"問題,從論文審閱到半導體工藝優化,展現出從基準測試到實際應用的轉化能力。這場高端AI市場的爭奪戰,將決定未來企業級人工智能的發展方向。














