谷歌近日宣布,其人工智能模型Gemini3DeepThink迎來重大升級,這款專為復雜任務設計的推理模型,在科學和工程領域展現出強大實力,引發業界廣泛關注。此次升級后的DeepThink不僅在多項基準測試中刷新紀錄,更在實際應用中展現出巨大潛力。
在性能表現方面,DeepThink堪稱"考試冠軍"。在被稱為"人類最后考試"的測試中,不使用任何工具的情況下取得48.4%的成績,遠超ClaudeOpus4.6的40%和GPT-5.2的34.5%。在ARC-AGI-2抽象推理測試中,84.6%的得分更是突破性成就,此前最強模型得分僅在60%-70%區間。編程領域同樣表現亮眼,在Codeforces平臺獲得3455的Elo評分,躋身全球頂尖程序員行列。
科學應用領域,DeepThink展現出獨特價值。在2025年國際物理和化學奧賽筆試中,該模型獲得金牌級別成績。更令人矚目的是,羅格斯大學數學家LisaCarbone利用其審閱專業論文時,成功識別出人工評審未能發現的邏輯缺陷,這項突破被視為人工智能從輔助工具向研究合作者轉變的重要標志。杜克大學團隊借助DeepThink優化晶體生長方案,培育出尺寸超100微米的薄膜,技術指標超越所有現有方法。
工程實踐方面,DeepThink正在改變傳統工作模式。工程師可通過自然語言指令,讓模型分析圖紙、建模復雜形狀并生成3D打印文件。在半導體材料研發中,該模型能快速探索新型材料組合,顯著縮短研發周期。谷歌CEO桑達爾·皮查伊特別強調,模型專門針對缺乏明確解決方案的現實問題優化,特別適合處理數據不完整或存在噪聲的復雜場景。
技術團隊構成同樣引人注目。去年9月加入谷歌DeepMind的清華物理系學者姚順宇,作為核心成員參與新模型開發。他在社交平臺分享使用體驗時表示,DeepThink的推理能力已達到研究級水平,能夠支持數學家開展前沿探索。這種跨學科背景的研發團隊,或許正是模型在科學領域表現突出的關鍵因素。
行業反響熱烈,多位專家對測試成績表示震驚。有AI從業者指出,ARC-AGI-2測試84.6%的得分遠超人類平均水平,若模型確實具備模式識別而非記憶能力,將重新定義人工智能的認知邊界。谷歌前工程師評論稱,發現論文邏輯缺陷的案例證明,人工智能已跨越輔助驗證階段,真正成為研究合作伙伴。
目前,DeepThink已通過Gemini應用向GoogleAIUltra訂閱用戶開放,同時通過GeminiAPI向特定研究人員和企業提供訪問權限。這種雙軌開放策略,既保證核心用戶優先體驗,又為專業領域定制化開發留下空間。隨著模型在材料科學、高能物理等領域的深入應用,人工智能推動基礎研究突破的時代或許正在到來。
















