滾動資訊

當(dāng)前位置：首頁 > 資訊 > 業(yè)界動態(tài) > 正文內(nèi)容

GPT-5.4發(fā)布，最適合OpenClaw的天選模型登場了

時間：2026-03-06 15:56:08 來源：數(shù)字生命卡茲克編輯：快訊 IP：北京 發(fā)表評論無障礙通道

深夜凌晨2點，我剛準(zhǔn)備睡覺。

然后，GPT-5.4，突然發(fā)布。

一下子激動的睡不著了。

真的，這真不是我天天咋咋呼呼啥的，我真的也很少會用激動的睡不著覺這種表述。

這是因為，我一直在等正式版的GPT-5.3或者GPT-5.4，來作為我的OpenClaw的首選模型。

理由特別簡單，因為現(xiàn)代世界三十年，本質(zhì)上基層都是代碼，我們現(xiàn)在看到的關(guān)于計算機和互聯(lián)網(wǎng)的一切，幾乎都建立在代碼的基礎(chǔ)之上。

所以你可以理解為，代碼能力，在很多時候，就代表著Agent能力的一根粗壯的腿。

一個優(yōu)秀的Agent基座模型，在我的理解里，一般來說，需要三種都很強：

代碼能力、世界知識、多模態(tài)理解。

當(dāng)你這三個都能SOTA的時候，你幾乎必然就是最牛逼的Agent模型，當(dāng)然，還有一個重要的因素，就是價格。

在過去，Claude Opus 4.6，幾乎就是Agent模型的代名詞，因為代碼、世界知識都很強，多模態(tài)能力雖然比不過Seed 2.0和Gemini 3.1 Pro，但是在一些場景里面，也夠了，因為現(xiàn)在的Agent，跟現(xiàn)實物理交互還沒有那么多，那個已經(jīng)是具身智能的范疇了。

而我過去很喜歡的GPT-5.3-Codex，代碼能力確實強，在做任務(wù)執(zhí)行的時候，那簡直就是指哪打哪。

但是最大的問題，這玩意是一個編程特化模型啊，世界知識就是一坨屎，連GPT-5.2都不如，所以O(shè)penAI當(dāng)時也是沒辦法，為了跟Claude打一打，只能加個Codex的后綴給放出來了。

所以你會發(fā)現(xiàn)，在規(guī)劃能力上，是完全比不過Claude Opus 4.6的，但是最大的問題，其實還是因為世界知識的問題，就導(dǎo)致這玩意。

它說天書，講的那些話，真的，我不是程序員出身，我看那個話，看的就真的超級費勁。

就比如說，我讓他之前對我的一個AI熱點網(wǎng)站的項目進行審查，主要就是review一下我的文檔規(guī)范和我整個代碼庫。

然后，這哥們寫的文檔，我尼瑪。。。

你再對比一下Claude Opus 4.6寫的。

對比起來應(yīng)該一目了然。。。

就是因為這玩意不說人話，世界知識也不行，所以，只是在Codex里面用用還好，但是你要是把它接到你的OpenClaw里面，去當(dāng)做默認模型，你就知道啥叫災(zāi)難了，這哥們幾乎沒有人味，說起話來我想揍他。

所以我當(dāng)時試了一下，就直接棄了，還是在我的OpenClaw里面，用的Claude Opus 4.6和Sonnet 4.6，做了一下場景調(diào)用。

那為啥說，我很期待GPT-5.4呢。

因為，Claude哪都好，但是，它貴啊?。。?/p>

它真的好貴啊！！?。。?！

而且因為Anthropic這個呆逼，它把OpenClaw給瘋了，所以我訂閱的Claude的Max Plan的額度，是完全不能給OpenClaw用的，只能在Claude Code用，你想在OpenClaw上用，只能硬接API Key用。

但是大家都知道，Claude的API有多貴，那根本不是我們這種窮逼團隊能用的起的，小規(guī)模用用還好，大規(guī)模用那公司直接破產(chǎn)了。

之前還有一條路是用反代，把Google家的Antigravity里面的Claude額度用插件代理出來，扔給OpenClaw用。

但是后面Google開始大批量封號，導(dǎo)致也沒辦法用了。

我過年的時候Google賬號還被封了，被迫用AI去給Google寫了一份聲淚俱下的郵件。

我說我錯了，我再也不會了。

后面Google才給我解封，但是反代肯定是用不了了。

而OpenAI就不一樣了，最開始Claude瘋狂封OpenCode賬號的時候，OpenAI大手一揮，就站了出來，說我們不封，大家全力使用。

這是御三家里，唯一一個這么支持態(tài)度的，可以用第三方的工具，調(diào)用Codex的額度的。

那對OpenClaw自然也不例外了，也是幾個頂級模型里面，為數(shù)不多的，可以直接走登錄的，其他的都得用API。

真的，OpenAI這會真的是大善人。

還瘋狂的給Codex加額度。

所以啊，Claude在OpenClaw里用，好是好，但是不能用訂閱額度，只能用API，貴的一筆。

OpenAI的模型倒是可以用訂閱額度，但是GPT-5.2代碼又不行，GPT-5.3-codex又不說人話。

你看，要多別扭有多別扭。

而這一次，GPT-5.4來了?。?！

終于把這個短板給補上了！

代碼能力跟GPT-5.3-Codex齊平，世界知識比GPT-5.2還要強，還能使用訂閱額度，20刀就可以用的超級爽。

你就說，這不是最適合OpenClaw的天選模型，還有誰是？嗯？

從今天開始，用OpenClaw的，都把默認模型切換到GPT-5.4去，真的，信我。

回到GPT-5.4，老規(guī)矩，先看跑分。

就很爽。

先看最關(guān)鍵的幾個。

GDPval：83.0%

這個是測AI在真實工作任務(wù)中表現(xiàn)的，包括金融、法律等44種職業(yè)的知識工作。

GPT-5.4 Thinking拿了83.0%，Claude Opus 4.6是78.0%，GPT-5.3 Codex是70.9%。

在真實業(yè)務(wù)場景里，GPT-5.4不只是會寫代碼，它還能跟你聊業(yè)務(wù)、聊金融、聊法律、聊各種專業(yè)領(lǐng)域的東西。

而且是用人話聊，不是用天書聊。

SWE-Bench Pro：57.7%

這個是測AI解決真實軟件工程問題的，不只是Python，而是測四種編程語言。

GPT-5.4 Thinking拿了57.7%，GPT-5.3 Codex是56.8%。

基本持平。

這就是我最想看到的結(jié)果。

代碼能力保住了GPT-5.3 Codex的水平，世界知識又補上來了。

OSWorld-Verified也是，75.0%。這個是測AI操作電腦的能力的，就是讓AI像人一樣，用鼠標(biāo)點擊、用鍵盤輸入、在不同應(yīng)用之間切換，完成各種任務(wù)。

GPT-5.4 Thinking拿了75.0%，超過了Claude Opus 4.6的72.7%，也保持了跟GPT-5.3-Codex的持平。

而且，GPT-5.4操作電腦的速度，快的離譜。

看下這個沒有加速過的視頻，會更直觀。

自動播放

ToolAthon：54.6%

這個是測AI使用工具的能力的，也就是Agent能力的核心指標(biāo)之一。

GPT-5.4 Thinking拿了54.6%，Claude Opus 4.6是44.8%。

差了將近10個點。

至于學(xué)術(shù)知識之類的，跟GPT-5.3-codex就沒法比了，因為OpenAI自己也知道，所以，直接當(dāng)時就沒跑。

總之，翻譯成大白話就是。

GPT-5.4 = GPT-5.3 Codex的代碼能力 + 比GPT-5.2還強的世界知識 + 更強的工具使用能力 + 超級便宜的codex額度。

這四樣加在一起，就是一個完美的OpenClaw天選基座模型。

然后還有幾個很棒的特性更新：

1. 100萬token的上下文窗口。

這是GPT-5.4的一個大升級。

之前GPT-5.3的上下文窗口是40萬token，GPT-5.4直接翻了一倍多，到了100萬。

這對Agent來說太重要了。

因為Agent在執(zhí)行任務(wù)的時候，需要保持對整個任務(wù)的上下文理解。如果上下文窗口不夠大，Agent干著干著就會忘事兒，前面說的東西后面就不記得了。

100萬token，基本上足夠應(yīng)對絕大部分的Agent任務(wù)了。

當(dāng)然，OpenAI也不傻，他們說，超過27萬token之后，你的額度就算兩倍了。

不過因為Codex給的額度實在是太多太多了，所以即使是2倍，其實也還好。

2. 原生計算機使用能力。

這個是GPT-5.4的另一個大賣點。

OpenAI說，GPT-5.4是他們第一個內(nèi)置原生計算機使用能力的主線模型。

它在編寫通過Playwright等庫操作計算機的代碼方面表現(xiàn)非常的出色，同時也能根據(jù)屏幕截圖發(fā)出鼠標(biāo)和鍵盤命令。

也就是代碼和視覺齊飛，我感覺，這個小龍蝦接入以后，就真的可以，直接用視覺，操控你電腦上絕大多數(shù)的軟件了，真的，原生操控，想想都激動。

他們基于此，還發(fā)布了一個新的skills，叫playwright-interactive。

允許Codex同時以代碼和視覺的兩種方式，調(diào)試Web和Electron應(yīng)用。

網(wǎng)址在此，大家可以自行安裝。

https://github.com/openai/skills/tree/main/skills/.curated/playwright-interactive

3. 支持了工具搜索。

以前呢，當(dāng)模型被賦予工具時，所有工具定義都會預(yù)先包含在提示中。

對于擁有大量工具的系統(tǒng)，這可能會為每個請求增加數(shù)千甚至數(shù)萬個token，而且絕大多數(shù)的時候，都毫無意義，平白無故的導(dǎo)致成本上升、響應(yīng)變慢，并在上下文中充斥模型可能永遠不會使用的信息。

所以呢，這次他們也支持了工具搜索，就是GPT?5.4不再直接接收完整工具定義，而是接收一份可用工具的輕量列表以及工具搜索功能。

當(dāng)模型需要使用某個工具時，它可以查找該工具的定義并在當(dāng)時將其追加到對話中。

就非常像Skills漸進式呈現(xiàn)的方式，目的很簡單，還是優(yōu)化上下文工程。

OpenAI在自己測試完以后，發(fā)現(xiàn)工具搜索配置在保持相同準(zhǔn)確率的同時將總體token使用量減少47%，這個就非常牛逼了。

GPT-5.4 Thinking大概就是這樣。

這次他們其實還發(fā)了個GPT-5.4 Pro，我就不細說了，反正就是一切都更牛逼了，但是對于大多數(shù)人來說，太貴了，也沒啥大用，必須得200刀的Pro會員才能用。

API的整體價格還是得說一下，雖然大家大概率用的都會是訂閱的額度。

相比于GPT-5.2，價格是漲了的，但是還是比Claude Opus 4.6，便宜不少，Claude Opus 4.6的價格是$5/$25每百萬token（輸入/輸出），GPT-5.4只有他們一半。

目前ChatGPT已經(jīng)上線了。

Codex也已經(jīng)支持了，我自己在Codex里面粗淺體驗了一下。

首先撲面而來的，那自然是清新沁人的人話。。。

比如我讓它去把OpenAI官網(wǎng)的視頻給扒拉下來，你看看這個發(fā)言：“這種活最煩”，“省的跟Cloudflare互相折壽”。。。

還有這個。

真的，Codex的輸出，我真的能看得懂了。。。

做出來的東西，前端審美有了不錯的進步，但還是不如Opus 4.6和Gemini。

寫作粗略測了一下，還是一股子莫名其妙的愛用排比句的詭異的味道。

奇奇怪怪。

然后有點可惜的就是，我等到了凌晨6點多，OpenClaw目前使用Codex登錄的方式，還是沒有支持GPT-5.4。

這就導(dǎo)致，我還是沒有機會測GPT-5.4在小龍蝦上的效果。

不過估計我一覺睡醒，估計小龍蝦就支持了。

因為社區(qū)里已經(jīng)看到很多用戶在催了，而且先行官們，都普遍反饋效果很好。

坐等支持，我真的已經(jīng)迫不及待了。

又是開心的一晚。

如果你也在用OpenClaw，那記得OpenClaw支持了以后，把默認模型切換到GPT-5.4。

如果你還沒用過OpenClaw，那正好，現(xiàn)在是一個很好的開始時機。

畢竟，有了GPT-5.4這個天選模型，體驗只會更好。

2026年，真是瘋狂的一年啊。

睡了。

更多>同類資訊

小米玄戒芯片有望一年一更，總裁盧偉冰確認年度迭代計劃

03-06

馬斯克猛攻創(chuàng)作者經(jīng)濟：X推出“專屬推文串”

03-06

預(yù)售22.99萬起新一代SU7全新內(nèi)飾顏色砂陶米官宣

03-06

兩個月了，是時候給OpenClaw下個定義了

03-06

“小米龍蝦”開啟小范圍封測：一句話操控手機、米家設(shè)備

03-06

埃安發(fā)布國民換電計劃：1.5萬根快充樁+千座換電站

03-06

L3和L4將進入百姓家！雷軍回應(yīng)將來還有必要學(xué)車嗎

03-06

小米雙門GT跑車外觀設(shè)計提前看比小米SU7還要帥？

03-06

陳睿：B站用戶平均年齡已提升到二十六、七歲

03-06

雷軍：不推薦普通用戶在主力設(shè)備上升級“手機龍蝦”

03-06

AI 創(chuàng)企 DiligenceSquared 獲500萬美元融資，以語音智能體挑戰(zhàn)傳統(tǒng)并購咨詢

03-06

月費99美元起!亞馬遜發(fā)布醫(yī)療版 AI 助手，深度集成 EHR 掘金智慧醫(yī)療

03-06

阿里百度搶投3D新霸主！VAST獲 5000 萬美元融資：億級模型庫開啟互動內(nèi)容新紀(jì)元

03-06

?亞馬遜 AWS 推出醫(yī)療 AI 代理平臺，月費 99 美元挑戰(zhàn)診療數(shù)字化

03-06

小米汽車新一代SU7全新內(nèi)飾顏色砂陶米官宣

03-06

點擊查看更多 +

全站最新

韓股本周收跌10.56%，創(chuàng)2020年3月以來最大周跌幅

雷軍談科技創(chuàng)新：人形機器人將進廠小米未來五年投2000億研發(fā)

雷軍再表感恩：小米扎根北京沃土，未來五年豪擲2000億搞硬核創(chuàng)新

REDMI Buds8活力版開售！119元享超大單元+雙麥降噪續(xù)航長達37小時

華為MateBook Neo蓄勢待發(fā)！24GB+1TB大內(nèi)存，處理器型號引網(wǎng)友猜測

小米汽車10天萬公里引質(zhì)疑阿維塔智駕冠軍車主曬成績實力力挺

熱門內(nèi)容

本欄最新

REDMI Buds8活力版開售！119元享超大單元+雙麥降噪續(xù)航長達37小時

華為MateBook Neo蓄勢待發(fā)！24GB+1TB大內(nèi)存，處理器型號引網(wǎng)友猜測

小米汽車10天萬公里引質(zhì)疑阿維塔智駕冠軍車主曬成績實力力挺

埃安UT super引領(lǐng)換電新潮流，可充可換讓國民出行補能無憂

嵐圖FE攜896線四激光雷達亮相智能駕駛體驗或?qū)⒂瓉硇嘛w躍

埃安UT super引領(lǐng)換電新潮流，車電分離讓國民出行補能無憂更自由

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR比爾科技官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) 魯ICP備11015305號-1 聯(lián)系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

GPT-5.4發(fā)布，最適合OpenClaw的天選模型登場了

GPT-5.4發(fā)布，最適合OpenClaw的天選模型登場了