作者|周一笑
2月6日,OpenAI總裁Greg Brockman在X上公開發(fā)了一條面向全公司工程團(tuán)隊(duì)的帖子,設(shè)了一個(gè)deadline:到3月31日,任何技術(shù)任務(wù),工程師的第一工具應(yīng)該是agent,而不是編輯器或終端。
這是OpenAI對(duì)自己下的動(dòng)員令。
如果只看這句話,你可能會(huì)覺得又是一條硅谷式的愿景聲明。但接下來(lái)六周發(fā)生的事情表明,Brockman不是在喊口號(hào)。OpenAI的Coding Agent平臺(tái)Codex,正在經(jīng)歷一輪罕見的產(chǎn)品沖刺,密度之高,節(jié)奏之快,甚至讓一些長(zhǎng)期關(guān)注AI編碼工具的開發(fā)者開始重新審視自己的工具鏈。
與此同時(shí),Codex在程序員群體中的熱度和口碑也在肉眼可見地上升。
一切動(dòng)作都指向“狙擊”Anthropic 如日中天的Claude Code。
六周的瘋狂迭代
拉一下時(shí)間線就能感受到這個(gè)節(jié)奏。
2月2日,Codex桌面App發(fā)布(macOS),OpenAI同時(shí)宣布向ChatGPT免費(fèi)和Go用戶開放Codex,所有付費(fèi)用戶的速率限制翻倍。
2月5日,GPT-5.3-Codex發(fā)布,OpenAI稱它為"第一個(gè)幫助創(chuàng)造了自身的模型"。同一天,Anthropic發(fā)布Claude Opus 4.6。
2月12日,Codex-Spark發(fā)布,與AI推理硬件公司Cerebras合作,推理速度超過每秒1000 tokens。OpenAI的說(shuō)法是,“當(dāng)模型能力越來(lái)越強(qiáng),交互速度就成了明確的瓶頸。”
2月14日,OpenClaw創(chuàng)始人Peter Steinberger宣布加入OpenAI。據(jù)Pragmatic Engineer報(bào)道,Steinberger用Codex編寫了OpenClaw的全部代碼,偏好長(zhǎng)時(shí)間運(yùn)行的agentic loop。Sam Altman在X上稱他為“天才”,說(shuō)他將“推動(dòng)下一代personal agents”。
3月4日,Codex桌面App登陸Windows。
3月5日,GPT-5.4發(fā)布,是OpenAI第一個(gè)同時(shí)具備reasoning、coding和原生computer use能力的通用模型,在Codex和API中支持100萬(wàn)token上下文。
3月6日,Codex Security進(jìn)入research preview。這是OpenAI推出的應(yīng)用安全代理,前身為內(nèi)測(cè)階段的Aardvark,能夠分析代碼倉(cāng)庫(kù)、構(gòu)建項(xiàng)目級(jí)威脅模型、在沙盒中驗(yàn)證漏洞并提出修復(fù)建議。過去30天的beta測(cè)試中,它掃描了超過120萬(wàn)次commits,發(fā)現(xiàn)792個(gè)critical級(jí)別漏洞和超過10000個(gè)高危問題,覆蓋OpenSSH、GnuTLS、Chromium等重量級(jí)開源項(xiàng)目。誤報(bào)率降低超過50%,噪音降低84%。
使用數(shù)據(jù)也在同步攀升。Sam Altman在X上確認(rèn),Codex的周活用戶自年初以來(lái)增長(zhǎng)超過三倍;Codex團(tuán)隊(duì)負(fù)責(zé)人Thibault Sottiaux(Tibo)告訴Pragmatic Engineer的Gergely Orosz,1月以來(lái)它的使用量增長(zhǎng)了5倍,周活開發(fā)者超過100萬(wàn)。Tibo還在播客中提到,Super Bowl周日播出的Codex廣告讓系統(tǒng)幾乎立即承受了巨大負(fù)載。
六周,七次重大產(chǎn)品動(dòng)作,這成了OpenAI在產(chǎn)品上最激進(jìn)的沖刺之一。
要理解這個(gè)節(jié)奏,一方面要看供給側(cè)的變化。GPT-5系列模型的agent能力在過去幾個(gè)月出現(xiàn)了質(zhì)的飛躍,從上下文窗口、工具調(diào)用到長(zhǎng)時(shí)間自主執(zhí)行,模型本身的能力到了一個(gè)可以支撐Coding Agent這個(gè)產(chǎn)品形態(tài)的臨界點(diǎn)。
另一方面,需求側(cè)的信號(hào)同樣強(qiáng)烈。據(jù)SemiAnalysis報(bào)道,Anthropic的Claude Code已經(jīng)做出25億美元的年化收入,占其企業(yè)收入的一半以上。Claude Code用真金白銀證明了Coding Agent可以成為AI公司的核心收入引擎。對(duì)于估值據(jù)報(bào)已達(dá)數(shù)千億美元的OpenAI來(lái)說(shuō),放棄這個(gè)賽道不是一個(gè)現(xiàn)實(shí)的選項(xiàng)。
根據(jù)SemiAnalysis的預(yù)測(cè)AnthropicARR增速一度超過OpenAI
時(shí)間點(diǎn)上的貼身肉搏也值得注意。GPT-5.3-Codex和Claude Opus 4.6在2月5日同一天發(fā)布。Codex Security和Claude Code Security幾乎同期推出。這種節(jié)奏本身就是信號(hào),兩家公司正在把Coding Agent平臺(tái)視為正面戰(zhàn)場(chǎng)。
開發(fā)者開始從Claude Code的單一模式變成混合模式
在很長(zhǎng)一段時(shí)間,Anthropic旗下的Claude Code看起來(lái)似乎已經(jīng)沒有了對(duì)手,用戶對(duì)它的依賴變得越來(lái)越重。而OpenAI顯然不想讓Anthropic 這么舒服。在Codex的一通激進(jìn)沖刺后,開發(fā)者社區(qū)的反應(yīng)也開始發(fā)生一些變化。
過去一個(gè)月,Reddit和Hacker News上關(guān)于Codex和Claude Code的討論,出現(xiàn)頻率最高的詞不是更好或替代,而是stacking。也就是說(shuō),越來(lái)越多的開發(fā)者不是在兩者之間選擇,而是同時(shí)使用。
Calvin French-Owen是一個(gè)典型案例。他是Segment聯(lián)合創(chuàng)始人,曾在OpenAI參與Codex web產(chǎn)品的發(fā)布,同時(shí)也是Claude Code的深度用戶。他在今年2月寫的一篇博客里說(shuō),自己選擇工具的核心標(biāo)準(zhǔn)是“我有多少時(shí)間,以及我想讓它多自主地跑”。
他的日常工作流是用Claude Code做規(guī)劃、編排終端和管理git操作,然后切到Codex做實(shí)際編碼。他說(shuō)Opus在跨上下文窗口的工作中效率更高,會(huì)同時(shí)啟動(dòng)多個(gè)子代理并行探索代碼庫(kù);而Codex在長(zhǎng)時(shí)間自主編碼任務(wù)上更穩(wěn)定。
Reddit上也出現(xiàn)了更具體的分工模式。有開發(fā)者詳細(xì)描述了一個(gè)五段式workflow,先讓Claude Code出計(jì)劃,再讓Codex review計(jì)劃,然后由Claude實(shí)施,最后交給Codex做code review和QA迭代。還有人直接把Claude Code和Codex串成了一個(gè)CLI bridge,因?yàn)槭謩?dòng)在兩者之間復(fù)制粘貼太累了。
一篇社區(qū)分析總結(jié)了500多條Reddit評(píng)論后的結(jié)論,Claude Code在一組小樣本盲測(cè)中勝率達(dá)到67%,質(zhì)量更高;但Codex 20美元的套餐能編碼一整天不斷,而Claude Code同價(jià)位十幾個(gè)prompt就用完了。“Claude Code質(zhì)量更高但用不完,Codex稍弱但全天能用”,這是2026年3月開發(fā)者社區(qū)最真實(shí)的共識(shí)。
在Cursor官方的benchmark中,GPT系列整體領(lǐng)先其他模型。
開發(fā)者社區(qū)還流傳著一個(gè)比喻來(lái)描述兩者的氣質(zhì)差異,Claude像美國(guó)人,適合做充滿創(chuàng)造力的探索和頭腦風(fēng)暴,Codex像德國(guó)人,代表極致的效率和專注執(zhí)行。“它就像一條咬住骨頭不放的狗,非常固執(zhí),會(huì)一直嘗試直到解決問題。”
當(dāng)然也有反面聲音。Hacker News上有開發(fā)者說(shuō)Codex對(duì)自己來(lái)說(shuō)“每一項(xiàng)都比Claude Code差”,尤其是code review會(huì)制造看似合理但實(shí)際不存在的問題,他最后只把Codex用來(lái)復(fù)核Claude的產(chǎn)出。
但大方向已經(jīng)很明確了,社區(qū)討論正在從哪個(gè)更好就用哪個(gè),變成兩個(gè)都用,各占一個(gè)工位。
比的不再是benchmark,是誰(shuí)是更實(shí)用的產(chǎn)品
只看模型benchmark,你不太容易理解Codex為什么起勢(shì)。在SWE-Bench這類編碼評(píng)測(cè)上,Claude Opus 4.6仍然領(lǐng)先。真正讓Codex拉開差異的地方在別處,OpenAI正在圍繞它構(gòu)建一整套工程系統(tǒng)。
Orosz今年2月發(fā)表了一篇對(duì)Codex團(tuán)隊(duì)的深度報(bào)道。其中最引人注目的事實(shí)是,Codex超過90%的代碼是由Codex自己編寫的。Anthropic方面也有類似的說(shuō)法,Claude Code的創(chuàng)建者Boris Cherny告訴Orosz,Claude Code的數(shù)據(jù)大致相當(dāng)。
當(dāng)然,這里的90%需要打個(gè)折扣理解,在一個(gè)成熟項(xiàng)目中,樣板代碼、測(cè)試用例、常規(guī)重構(gòu)占了大量行數(shù),核心架構(gòu)決策仍然由人來(lái)做。但兩家AI實(shí)驗(yàn)室都在用自己的coding 工具來(lái)編寫自己的coding 工具,這種自舉本身就說(shuō)明了這些工具已經(jīng)深度嵌入了日常工程流程。
Codex 的基本工作原理
Codex團(tuán)隊(duì)在工程組織層面走得更遠(yuǎn)。Orosz的報(bào)道描述了一種新的工作方式,Codex團(tuán)隊(duì)的典型工程師同時(shí)運(yùn)行4到8個(gè)并行agent,分別處理feature開發(fā)、code review、安全審計(jì)、代碼庫(kù)理解、bug修復(fù)等任務(wù)。工程師的角色正在從寫代碼的人變成管理agent的人。
技術(shù)選型上,Codex CLI選擇了Rust(Claude Code使用的是Typescript)。團(tuán)隊(duì)負(fù)責(zé)人Tibo給出的理由不僅是性能和正確性,還有工程文化,選擇Rust是為了給團(tuán)隊(duì)設(shè)定一個(gè)高工程標(biāo)準(zhǔn),同時(shí)減少對(duì)npm依賴生態(tài)的依賴。他們甚至招募了Rust終端UI庫(kù)Ratatui的維護(hù)者全職加入團(tuán)隊(duì)。
更值得關(guān)注的是分層代碼審查機(jī)制。Codex團(tuán)隊(duì)訓(xùn)練了一個(gè)定制的code review模型,據(jù)Tibo說(shuō)約9/10的評(píng)論能指出有效問題。審查分兩層,非關(guān)鍵代碼在AI review后可以直接merge,核心agent代碼和開源組件仍然要求強(qiáng)制人工審查。這套機(jī)制的意義在于,審查本身開始分層了。
還有兩個(gè)細(xì)節(jié)能說(shuō)明Codex正在從工具走向系統(tǒng)。Codex可以運(yùn)行自己的完整測(cè)試套件來(lái)測(cè)試自身;團(tuán)隊(duì)還設(shè)置了夜間巡檢,讓Codex自動(dòng)掃描代碼庫(kù)并生成待審修復(fù)建議,工程師每天早上進(jìn)公司時(shí)就有一批修復(fù)等著review。
一家名為Wonderful的AI開發(fā)公司的首席架構(gòu)師在今年3月寫了一篇文章,描述了他們四個(gè)月前禁止手動(dòng)coding后的經(jīng)驗(yàn)。他對(duì)兩個(gè)工具的定位是,Codex是坐在房間后面戴耳機(jī)的工程師,默默讀完你整個(gè)代碼庫(kù)15分鐘才寫第一行代碼,Claude則更有產(chǎn)品感,更擅長(zhǎng)判斷什么感覺對(duì)。他們把Codex用于低延遲系統(tǒng)工作、實(shí)時(shí)語(yǔ)音管線、性能敏感代碼,Claude則用于UI和前端。
從coding工具到Agent平臺(tái)
拉遠(yuǎn)來(lái)看,Codex六周沖刺的方向指向一個(gè)更大的野心。
Peter Steinberger的加入是一個(gè)人事信號(hào)。他日常同時(shí)并行5到10個(gè)agent,加入OpenAI后的方向是下一代personal agents,不是coding工具。OpenAI正在用Codex作為agent戰(zhàn)略的入口。
Codex Security則是另一個(gè)方向的延伸。當(dāng)Codex從幫你寫代碼走向幫你審計(jì)安全,它的定位就已經(jīng)變了。
GPT-5.4進(jìn)一步加速了這個(gè)轉(zhuǎn)變。作為OpenAI第一個(gè)具備原生computer use能力的通用模型,它在Codex中不僅能寫代碼,還能操作電腦、跨應(yīng)用執(zhí)行工作流。配合正在成型的插件/skills生態(tài)系統(tǒng)和企業(yè)級(jí)權(quán)限管理,Codex的輪廓越來(lái)越像一個(gè)AI原生的開發(fā)平臺(tái)。
Codex團(tuán)隊(duì)在Every的播客中透露了他們眼中的下一個(gè)瓶頸,就是代碼審查。
模型生成代碼的速度已經(jīng)遠(yuǎn)超人類review的速度,驗(yàn)證產(chǎn)出的正確性成了最緊迫的問題。他們已經(jīng)在嘗試讓模型通過重現(xiàn)用戶操作路徑來(lái)“證明”修復(fù)有效,而不是讓人類逐行讀代碼。
這些野心和Claude Code已經(jīng)越來(lái)越清楚的發(fā)展方向有很多重合,在從Claude Code那里迅速搶走了一些用戶和使用場(chǎng)景之后,Codex的勢(shì)頭正在起來(lái)。回到Greg Brockman 2月6日的那條帖子。他設(shè)的deadline是3月31日,目前距離deadline還有兩周多,而從過去六周的節(jié)奏來(lái)看,Codex的沖刺還遠(yuǎn)沒有結(jié)束。
OpenAI把曾經(jīng)在模型上呈現(xiàn)出的狠勁兒和卷王的氣質(zhì),都放到了Codex上,接下來(lái)它和Claude code之間短兵相接的故事,會(huì)更精彩了。











