智東西2月20日消息,今日凌晨,谷歌正式發(fā)布其新一代旗艦?zāi)P虶emini 3.1 Pro。根據(jù)谷歌放出的基準(zhǔn)測(cè)試,谷歌最強(qiáng)復(fù)雜任務(wù)處理模型Gemini 3.1 Pro在12項(xiàng)測(cè)試中超過(guò)Gemini 3 Pro、Claude Opus 4.6、Claude Sonnet 4.6、GPT-5.2等模型,拿下第一。
谷歌DeepMind主要提升了Gemini 3.1 Pro的推理能力。面對(duì)業(yè)界公認(rèn)高難度的ARC-AGI-2通用智能基準(zhǔn)測(cè)試,Gemini 3.1 Pro斬獲77.1%的高分,超越Claude、GPT模型,且成績(jī)相較Gemini 3 Pro實(shí)現(xiàn)翻倍提升。
去年9月加入谷歌DeepMind的清華物理系傳奇人物姚順宇(Shunyu Yao)也發(fā)文官宣了新模型發(fā)布,并稱“更好的Gemini模型正以勢(shì)不可擋的速度涌現(xiàn)”。
下面這一經(jīng)典的“鵜鶘騎自行車(chē)SVG動(dòng)畫(huà)”對(duì)比,直觀體現(xiàn)了新模型的能力提升,右側(cè)Gemini 3.1 Pro生成的鵜鶘身體結(jié)構(gòu)、騎行姿態(tài)自然合理,且自行車(chē)的車(chē)架、鏈條、腳踏、座椅等細(xì)節(jié)完整,相比Gemini 3 Pro的生成結(jié)果符合物理常識(shí),更像一個(gè)完整的動(dòng)畫(huà)場(chǎng)景。
為Gemini 3.1開(kāi)發(fā)SVG生成功能的清華校友Jiao Sun,在X上評(píng)論說(shuō)“無(wú)比自豪”。
從今日起,Google AI Pro、Ultra訂閱用戶可以在Gemini應(yīng)用、AI助手NotebookLM中使用Gemini 3.1 Pro,免費(fèi)用戶可向Gemini 3.1 Pro提問(wèn)2次。開(kāi)發(fā)者和企業(yè)用戶可以在AI Studio、Antigravity、Vertex AI、Gemini Enterprise、Gemini CLI及Android Studio的Gemini API預(yù)覽版中使用Gemini 3.1 Pro。
Gemini 3.1 Pro預(yù)覽版的API價(jià)格采用分級(jí)計(jì)費(fèi)模式,與上一代Gemini 3 Pro預(yù)覽版保持一致,提示詞在20萬(wàn)token以內(nèi),每百萬(wàn)token輸入價(jià)格2美元(約合人民幣14元),輸出價(jià)格12美元(約合人民幣83元),提示詞超過(guò)20萬(wàn)token,每百萬(wàn)token輸入價(jià)格4美元(約合人民幣28元),輸出價(jià)格18美元(約合人民幣124元)。
01 .
能搭WebOS、能做《我的世界》
還能拆視覺(jué)錯(cuò)覺(jué)
Gemini 3.1 Pro的核心升級(jí)集中在復(fù)雜任務(wù)處理能力上。其博客透露,新模型在高級(jí)推理、多模態(tài)理解和復(fù)雜項(xiàng)目生成方面進(jìn)一步強(qiáng)化,能夠更好應(yīng)對(duì)高難度工作場(chǎng)景。模型發(fā)布后,社區(qū)實(shí)測(cè)迅速跟進(jìn)。
知名AI博主Chetaslua展示了其用Gemini 3.1 Pro一次性安裝Windows 11 WebOS的結(jié)果。
Chetaslua在帖中直言:“上次我分享類(lèi)似案例時(shí)還非常困難,現(xiàn)在已經(jīng)變成常態(tài)。有了智能體系統(tǒng),我們幾乎可以用這個(gè)模型做任何事。”
他之前也發(fā)過(guò)用Gemini 3.0 Pro生成Windows Web操作系統(tǒng)的視頻,兩個(gè)視頻放一起對(duì)比,提升效果非常明顯。
Gemini 3.1 Pro生成的系統(tǒng)界面有完整應(yīng)用圖標(biāo)、開(kāi)始菜單樣式布局以及基礎(chǔ)窗口交互邏輯,整體形態(tài)更接近一個(gè)可運(yùn)行的輕量級(jí)操作系統(tǒng)。
相比之下,之前3.0 Pro生成的系統(tǒng)形態(tài)相對(duì)簡(jiǎn)陋,一些基礎(chǔ)桌面交互和系統(tǒng)級(jí)應(yīng)用缺失。
另一組更偏工程化的案例顯示,有開(kāi)發(fā)者用Gemini 3.1 Pro在瀏覽器中直接生成并運(yùn)行了一個(gè)可交互的VoxelWeb項(xiàng)目,形態(tài)類(lèi)似“我的世界”式3D沙盒。
界面已包含啟動(dòng)按鈕、移動(dòng)控制、方塊交互以及基礎(chǔ)合成邏輯,具備完整的輕量沙盒雛形。
在前端生成與動(dòng)畫(huà)細(xì)節(jié)方面,也有開(kāi)發(fā)者要求模型生成一段完整的交互式生長(zhǎng)動(dòng)畫(huà),覆蓋種子發(fā)芽、根系形成、枝干生長(zhǎng)到樹(shù)葉展開(kāi)的全過(guò)程。
實(shí)測(cè)結(jié)果顯示,模型在生長(zhǎng)階段銜接與葉片細(xì)節(jié)上表現(xiàn)較為完整。該開(kāi)發(fā)者評(píng)價(jià)稱:“這是我在這個(gè)提示詞下見(jiàn)過(guò)最好的樹(shù)葉效果。”
視覺(jué)理解方向的測(cè)試則進(jìn)一步拉高了難度。有網(wǎng)友專門(mén)驗(yàn)證“AgenticVision”能力,輸入素材是一張看似普通的街頭垃圾桶照片。
模型不僅完成了基礎(chǔ)識(shí)別,還進(jìn)一步指出:當(dāng)瞇眼或拉遠(yuǎn)觀看時(shí),畫(huà)面中的垃圾、陰影與輪廓會(huì)在視覺(jué)上拼合成兩個(gè)并排而坐的卡通角色。模型還逐項(xiàng)拆解了這一視覺(jué)錯(cuò)覺(jué)的形成機(jī)制,解釋不同布料、垃圾袋與陰影分別對(duì)應(yīng)角色的頭部、身體與外輪廓關(guān)系,體現(xiàn)出多步視覺(jué)推理能力。
整體來(lái)看,Gemini 3.1 Pro已經(jīng)開(kāi)始觸及空間關(guān)系理解、形狀映射和視覺(jué)錯(cuò)覺(jué)解釋等更高階視覺(jué)認(rèn)知任務(wù)。開(kāi)發(fā)者給出的綜合判斷是,其表現(xiàn)已進(jìn)入當(dāng)前第一梯隊(duì)水平。
我們還用“開(kāi)車(chē)還是步行去距離100米的洗車(chē)店洗車(chē)”、“父母能否結(jié)婚”等陷阱題考了考Gemini 3.1 Pro,結(jié)果它都成功避坑答對(duì)。
02 .
手搓《模擬城市》
創(chuàng)意編程、交互式設(shè)計(jì)分分鐘搞定
谷歌DeepMind的官方X賬號(hào)展示了谷歌UX工程師Michael Chang用Gemini 3.1 Pro開(kāi)發(fā)了一個(gè)逼真的城市規(guī)劃應(yīng)用程序。Gemini 3.1 Pro能自己處理復(fù)雜地形、繪制基礎(chǔ)設(shè)施圖、模擬交通,最后生成高質(zhì)量的可視化效果。
除了上面提到的鵜鶘騎自行車(chē),Gemini 3.1 Pro在生成青蛙騎老式高輪自行車(chē)、長(zhǎng)頸鹿駕駛微型汽車(chē)、鴕鳥(niǎo)穿著旱冰鞋等各種抽象畫(huà)面的SVG動(dòng)畫(huà)上,表現(xiàn)也毫不遜色。相比Gemini 3 Pro,Gemini 3.1 Pro的生成效果整體場(chǎng)景更生動(dòng)、更有故事感,細(xì)節(jié)表現(xiàn)力大幅提升。
如Gemini 3.1 Pro可以直接根據(jù)文本提示生成可用于網(wǎng)站的動(dòng)畫(huà)SVG,并且由于這些動(dòng)畫(huà)是用純代碼而非像素構(gòu)建的,因此在任何尺寸下都能保持清晰,并且文件體積相比傳統(tǒng)視頻非常小。
Gemini 3.1 Pro的復(fù)雜推理能力,能幫助用戶使用復(fù)雜API完成設(shè)計(jì)。如下面案例,該模型構(gòu)建了一個(gè)實(shí)時(shí)航空航天儀表盤(pán),成功配置了公共遙測(cè)數(shù)據(jù)流,以可視化國(guó)際空間站的軌道運(yùn)行軌跡。
在交互式設(shè)計(jì)方面,Gemini 3.1 Pro可以編寫(xiě)代碼,生成一個(gè)復(fù)雜的3D椋鳥(niǎo)群飛模擬。并且其還能構(gòu)建沉浸式體驗(yàn),用戶可以通過(guò)手勢(shì)追蹤操控鳥(niǎo)群,同時(shí)聆聽(tīng)一段生成式配樂(lè),音樂(lè)會(huì)隨著鳥(niǎo)群的動(dòng)態(tài)變化而改變。
Gemini3.1 Pro還能進(jìn)行創(chuàng)意編程, 將文學(xué)主題轉(zhuǎn)化為可運(yùn)行的代碼。當(dāng)被要求為艾米莉·勃朗特(Emily Brontë)的《呼嘯山莊》構(gòu)建一個(gè)現(xiàn)代個(gè)人作品集網(wǎng)站時(shí),該模型深入分析了小說(shuō)的氛圍基調(diào),設(shè)計(jì)出一個(gè)簡(jiǎn)潔現(xiàn)代的界面,打造出一個(gè)能捕捉主角精神內(nèi)核的網(wǎng)站。
03 .
編程、推理、多模態(tài)樣樣行
數(shù)項(xiàng)測(cè)試超Claude、GPT模型
研究人員在一系列基準(zhǔn)測(cè)試中對(duì)Gemini 3.1 Pro進(jìn)行了評(píng)估,包括推理、多模態(tài)能力、智能體工具使用、多語(yǔ)言性能和長(zhǎng)上下文。
相比Gemini 3 Pro、Claude Sonnet 4.6、Claude Opus 4.6、GPT-5.2、GPT-5.3-Codex,Gemini 3.1 Pro在12項(xiàng)基準(zhǔn)測(cè)試中拿下第一。
在需要更強(qiáng)推理能力的測(cè)試中,Gemini 3.1 Pro在人類(lèi)最后的考試、ARC-AGI-2、GPQA Diamond 3項(xiàng)測(cè)試中,表現(xiàn)都優(yōu)于Claude、GPT模型。
編程能力測(cè)試中,Gemini 3.1 Pro在SWE-Bench Pro(公開(kāi)版)和SWE-Bench Verified中得分相對(duì)較低,這兩大測(cè)試集考驗(yàn)的是模型在真實(shí)項(xiàng)目中理解需求、定位問(wèn)題、修改代碼、保證可用的端到端工程能力。
GDPval-AA Elo是當(dāng)前衡量大模型在高價(jià)值知識(shí)工作中綜合能力的相對(duì)評(píng)分體系,Gemini 3.1 Pro的表現(xiàn)優(yōu)于GPT-5.2、GPT-5.3-Codex,僅次于Sonnet 4.6。
衡量大模型工具使用能力的τ2-bench、MCP Atlas、BrowseComp、多語(yǔ)言性能的MMLU、長(zhǎng)上下能力的MRCR v2測(cè)試集中,新模型的表現(xiàn)同樣優(yōu)于其他模型。
在多模態(tài)大模型學(xué)術(shù)評(píng)測(cè)基準(zhǔn)MMMU-Pro上,Gemini 3.1 Pro的表現(xiàn)比Claude、GPT模型更好,但略遜于Gemini 3 Pro。
04 .
結(jié)語(yǔ):大模型競(jìng)賽焦點(diǎn)
轉(zhuǎn)向復(fù)雜任務(wù)落地能力
當(dāng)前大模型行業(yè)正從通用能力比拼,轉(zhuǎn)向真實(shí)世界復(fù)雜任務(wù)的實(shí)戰(zhàn)能力競(jìng)爭(zhēng),海內(nèi)外各家模型在推理、工程化、多模態(tài)理解等核心能力上不斷發(fā)力突破,力求讓大模型真正落地應(yīng)用,與真實(shí)業(yè)務(wù)場(chǎng)景相結(jié)合。
谷歌近期的加速布局也是如此,其上周發(fā)布了Gemini 3 Deep Think模型升級(jí)、一周后又推出Gemini 3.1 Pro,都將模型的升級(jí)重點(diǎn)放在專業(yè)領(lǐng)域加速技術(shù)研發(fā)、解決實(shí)際工作中的復(fù)雜問(wèn)題上。可以看出,當(dāng)下大模型已經(jīng)讓更智能的大模型真正具備解決真實(shí)世界復(fù)雜任務(wù)能力,AI成為專業(yè)領(lǐng)域核心生產(chǎn)力的潛力增加。










