谷歌近日宣布,旗下AI模型Gemini 3迎來重大升級,推出專為復(fù)雜任務(wù)設(shè)計的推理模式"Deep Think"。這一突破性進(jìn)展標(biāo)志著AI在科學(xué)工程領(lǐng)域的應(yīng)用邁入新階段,其性能在多項(xiàng)國際頂級學(xué)術(shù)測試中達(dá)到人類頂尖水平,引發(fā)科技界廣泛關(guān)注。
在數(shù)學(xué)與編程領(lǐng)域,Deep Think展現(xiàn)出驚人實(shí)力。該模型在Codeforces競技編程平臺獲得3455分,相當(dāng)于全球排名第八的程序員水平,較此前OpenAI o3模型的2727分(第175名)實(shí)現(xiàn)質(zhì)的飛躍。更令人矚目的是,其在2025年國際數(shù)學(xué)奧林匹克競賽模擬測試中達(dá)到金牌標(biāo)準(zhǔn),在ARC-AGI-2測試中取得84.6%的突破性成績,經(jīng)ARC Prize基金會驗(yàn)證創(chuàng)下新高。在"人類終極考試"基準(zhǔn)測試中,Deep Think以48.4%的準(zhǔn)確率刷新SOTA紀(jì)錄,且全程未使用任何外部工具。
成本效益的革命性提升成為另一大亮點(diǎn)。數(shù)據(jù)顯示,Deep Think在ARC-AGI-1測試中每任務(wù)成本僅7.17美元,較OpenAI o3-preview版本約2000-3000美元的成本降低280至420倍。這種指數(shù)級下降的成本結(jié)構(gòu),為大規(guī)模科研應(yīng)用開辟了可行路徑。谷歌工程師透露,模型通過優(yōu)化算法架構(gòu),在保持精度的同時將計算效率提升了三個數(shù)量級。
跨學(xué)科應(yīng)用能力同樣令人驚嘆。在化學(xué)領(lǐng)域,Deep Think在2025年國際化學(xué)奧林匹克競賽筆試部分取得金牌成績;物理方面,其在凝聚態(tài)理論基準(zhǔn)測試CMT-Benchmark中達(dá)到50.5%的準(zhǔn)確率。更突破性的是,該模型已展現(xiàn)出將二維草圖自動轉(zhuǎn)化為3D打印文件的工程能力,羅格斯大學(xué)團(tuán)隊(duì)利用其成功識別出高能物理論文中的邏輯缺陷,杜克大學(xué)實(shí)驗(yàn)室則借助其優(yōu)化出新型半導(dǎo)體材料制備工藝。
技術(shù)實(shí)現(xiàn)層面,Deep Think創(chuàng)新性地融合了科學(xué)理論框架與工程實(shí)踐。谷歌DeepMind團(tuán)隊(duì)介紹,模型通過構(gòu)建多層次推理引擎,既能處理抽象數(shù)學(xué)證明,又能解決實(shí)際工程問題。這種"理論-實(shí)踐"雙輪驅(qū)動的設(shè)計,使其在處理未見過的問題類型時表現(xiàn)出色,例如在ARC-AGI測試中,模型需自主理解任務(wù)規(guī)則并推導(dǎo)出解決方案。
目前,Deep Think已通過Gemini應(yīng)用向Google AI Ultra訂閱用戶開放,同時通過API向部分科研機(jī)構(gòu)和企業(yè)提供服務(wù)。教育領(lǐng)域已出現(xiàn)早期應(yīng)用案例:麻省理工學(xué)院將模型引入量子計算課程,幫助學(xué)生驗(yàn)證復(fù)雜算法;劍橋大學(xué)材料系則利用其加速新型超導(dǎo)體研發(fā)周期。隨著更多專業(yè)用戶參與,這場由AI驅(qū)動的科研革命正在改寫人類探索未知的邊界。










