谷歌近日宣布對旗下Gemini 3 Deep Think模型進行重大升級,推出專為科學、研究與工程領域設計的"推理模式"。這一更新旨在突破傳統AI在復雜問題處理上的局限,為科研人員提供更強大的工具支持。新版本由谷歌工程師與多領域科學家聯合開發,重點解決真實科研場景中數據不完整、問題邊界模糊等挑戰。
在技術能力方面,新版Deep Think展現出顯著提升。該模型在終極人類考試(Humanity's Last Exam)中取得48.4%的成績,在ARC-AGI-2基準測試中達到84.6%(經ARC Prize Foundation驗證),Codeforces編程競賽基準獲得3455的Elo評分。更引人注目的是,其在2025年國際數學奧林匹克競賽模擬測試中達到金牌水平,在物理和化學奧賽筆試部分同樣取得金牌級表現,理論物理基準測試CMT-Benchmark得分50.5%。
此次升級的另一重要突破是應用范圍的擴展。從當地時間2月12日起,Google AI Ultra訂閱用戶可通過Gemini應用直接使用新功能。同時,谷歌通過Gemini API向特定研究人員、工程師和企業開放"早期訪問計劃",相關申請入口已在官方平臺上線。這種分階段推廣策略既保證了技術穩定性,也為專業用戶提供了優先體驗機會。
谷歌特別強調,Deep Think的研發目標超越單純追求測試分數。該模型被設計為科研人員的"智能助手",能夠協助解釋復雜數據集、通過代碼構建物理系統模型等實際任務。例如在材料科學領域,研究人員可利用其處理實驗數據中的噪聲信息;在工程設計中,工程師能借助其快速驗證不同參數組合的可行性。這種將理論能力轉化為實用工具的定位,標志著AI技術向專業領域深度滲透的新趨勢。
技術實現層面,新版本通過改進推理架構和知識表示方法,顯著提升了處理不確定性問題的能力。針對科研數據常有的缺失值和異常值,模型開發了專門的容錯機制;對于開放性問題,則采用多路徑探索策略生成多樣化解決方案。這些特性使其在氣候建模、基因分析等前沿領域展現出應用潛力,部分合作機構已開始將其用于實際研究項目。









