滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

AI編程大戰打響！OpenAI推出GPT-5.3-Codex，與Anthropic同步發布新模型

時間：2026-02-06 08:13:25 來源：華爾街見聞編輯：快訊 IP：北京 發表評論無障礙通道

OpenAI周四發布GPT-5.3-Codex。該公司稱，這是迄今為止能力最強的編程代理。值得注意的是，此次發布的時間點被精準安排在Anthropic推出其旗艦模型升級版Claude Opus 4.6的同一時刻。媒體稱，兩大模型同步亮相，被業內觀察人士視為“AI編程大戰”的第一槍——這是一場圍繞企業級軟件開發市場展開的高風險爭奪戰。

OpenAI首席執行官Sam Altman在模型發布幾分鐘后就在X上寫道：

“我非常喜歡用這個模型來開發，它帶來的進步感受，遠遠超過基準測試所顯示的幅度。”

“看著我們用5.3-Codex來開發5.3-Codex，從而把發布速度提升到這么快，真的令人震撼，這毫無疑問預示著未來的發展方向。”

媒體表示，模型本身參與了自身的構建，被視為AI發展中的一個重要里程碑。根據OpenAI的公告，Codex團隊使用GPT-5.3-Codex的早期版本來調試自身的訓練過程、管理部署基礎設施，并診斷測試結果和評估情況。OpenAI將其稱為“我們首個在自身創建過程中發揮關鍵作用的模型”。

GPT-5.3-Codex多項基準成績領先Claude達到兩位數

OpenAI表示，新模型在多項行業基準測試中實現了顯著提升。GPT-5.3-Codex在SWE-Bench Pro上取得了57%的成績。SWE-Bench Pro是一項極為嚴格的真實世界軟件工程評測，涵蓋四種編程語言，重點考察抗數據污染、具有工業相關性的挑戰。

該模型在Terminal-Bench 2.0上得分77.3%，這一基準主要衡量編程代理所必需的終端操作能力；在OSWorld上得分64%，該測試要求模型在可視化桌面環境中完成生產力任務，是一項強調“代理式”計算機使用能力的評估。

其中，Terminal-Bench 2.0的結果尤為引人注目。根據周三公布的性能數據，GPT-5.3-Codex的得分為77.3%，而GPT-5.2-Codex為64.0%，基礎版GPT-5.2模型為62.2%。也就是說，僅一代升級，成績就提升了13個百分點。一位X平臺用戶指出，這一成績“徹底碾壓”了Anthropic的Opus 4.6，后者據稱在同一基準上的得分為65.4%。

OpenAI還表示，新模型是在效率大幅提升的情況下實現上述成績的：在完成同等任務時，所需token數量不到上一代模型的一半，同時單個token的推理速度提升超過25%。

OpenAI在公告中稱：

“值得注意的是，GPT-5.3-Codex在使用的token數量上低于任何此前模型，這讓用戶能夠做更多事情。”

從編程助手到編程操作者

相比基準測試的提升，更重要的是OpenAI對GPT-5.3-Codex的定位。該公司明確表示：

“Codex正從一個只能編寫和審查代碼的代理，進化為一個幾乎可以完成開發者和專業人士在電腦上所做任何事情的代理。”

這一能力擴展涵蓋了調試、部署、監控、撰寫產品需求文檔、編輯文案、開展用戶研究、制作演示文稿，以及在電子表格應用中分析數據等。該模型在GDPVal評估中表現突出。GDPVal是OpenAI于2025年發布的一項評估，用于衡量模型在44種職業中、對定義明確的知識型工作任務的完成能力。

分析認為，這一擴展信號表明，OpenAI的目標不僅是開發者工具市場，還包括更廣泛的企業生產力軟件領域。該市場的既有玩家包括Microsoft、Salesforce和ServiceNow，這些公司都在加速將AI代理嵌入自身平臺。

OpenAI首個“高能力”網絡安全模型

向通用計算能力的轉變，也帶來了新的安全考量。OpenAI表示，GPT-5.3-Codex是其首個在“準備度框架”下，被歸類為在網絡安全相關任務上具備“高能力”的模型，同時也是首個被直接訓練用于識別軟件漏洞的模型。

OpenAI表示：“盡管我們尚未發現它可以端到端自動化網絡攻擊的確鑿證據，但我們采取了審慎策略，部署了迄今為止最全面的網絡安全防護體系。”相關措施包括雙用途安全訓練、自動化監控、對高級能力實行可信訪問機制，以及結合威脅情報的執行管線。

Altman也在X上強調了這一進展：

“這是我們首個在準備度框架中，網絡安全能力達到‘高’級別的模型。我們正在試點可信訪問框架，并承諾投入1000萬美元的API額度，用于加速網絡防御。”

OpenAI還在擴大其安全研究代理Aardvark的私有測試，并與開源維護者合作，為廣泛使用的項目提供免費的代碼庫掃描。OpenAI以Next.js為例，稱一名安全研究人員上周就曾使用Codex發現并披露了相關漏洞。

同日同時發布最新模型，OpenAI與Anthropic的競爭白熱化

不過，該公司網絡安全方面的宣布，很快被OpenAI與Anthropic之間的對抗所掩蓋。媒體表示，若脫離背景，很難理解周四這一發布時間點的意義。

Anthropic是一家以AI安全為核心的初創公司，成立于2021年，由多名前OpenAI研究人員創辦，其中包括Dario Amodei和Daniela Amodei。

兩家公司都將重大產品發布安排在當天美西時間上午10點。Anthropic發布了Claude Opus 4.6，并將其描述為“最聰明的模型”，稱其“規劃更謹慎、能更長時間持續執行代理式任務、在超大型代碼庫中運行可靠，并且能夠發現并糾正自身錯誤”。

而這一正面交鋒的背后，是一周不斷升級的緊張關系。Anthropic宣布，將在超級碗期間播出廣告，嘲諷OpenAI近期開始在ChatGPT免費用戶中測試廣告的決定。

Altman隨后作出罕見的直接回應，在一篇長篇X帖中稱這些廣告“好笑”，但“明顯不誠實”。

Altman寫道：

“我們顯然永遠不會像Anthropic廣告中描繪的那樣投放廣告。我們并不愚蠢，也知道用戶絕不會接受那種做法。”

“我想這倒是很符合Anthropic一貫的‘雙重話術’風格，用一個具有誤導性的廣告，去批評根本不存在的、理論上的誤導性廣告，但超級碗廣告并不是我預期會看到這種事情的地方。”

他進一步將Anthropic形容為一家“威權式公司”，稱其“想要控制人們如何使用AI”。

Altman寫道：

“Anthropic向富人提供昂貴的產品。使用ChatGPT免費版的德州人數量，比美國使用Claude的總人數還要多，所以我們面臨的是完全不同形態的問題。”

企業AI支出遠超預期，OpenAI市場份額面臨Anthropic與谷歌擠壓

公開的口水戰背后，是一場極其嚴肅的商業競爭。這一對抗發生在企業級AI應用爆發式增長的大背景下，雙方都在爭奪一個迅速擴張的市場。

根據Andreessen Horowitz本周發布的調查數據，企業在大語言模型上的支出，已經大幅超過此前即便相當樂觀的預測。2025年，企業平均在LLM上的支出達到700萬美元，較2024年實際支出的250萬美元高出180%，也比企業在一年前對2025年的預測高出56%。預計到2026年，單個企業的支出將達到1160萬美元，再增長65%。

a16z的數據還揭示了市場格局的變化。OpenAI仍然占據企業AI支出中最大的份額，但這一份額正在縮小——從2024年的62%，下降至預計2026年的53%。同期，Anthropic的份額從14%上升至預計18%，Google也呈現出類似的增長趨勢。

在企業使用模式上，情況更加微妙。雖然OpenAI在總體使用量上領先，但在接受調查的OpenAI客戶中，只有46%在生產環境中使用其最強模型；而Anthropic和Google這一比例分別為75%和76%。如果將測試環境也計算在內，89%的Anthropic客戶正在測試或使用其最強模型，這一比例在主要廠商中最高。

在軟件開發這一雙方編程代理的核心應用場景中，a16z調查顯示，OpenAI的市場份額約為35%，而Anthropic則占據了剩余市場中相當可觀、且持續增長的一部分。

OpenAI承諾未來數周推出更多Codex功能

展望未來，OpenAI表示，GPT-5.3-Codex已立即向付費ChatGPT用戶開放，覆蓋所有Codex使用場景，包括桌面應用、命令行接口、IDE擴展和網頁端，API接口預計隨后推出。

該模型還加入了一項新的交互功能：用戶可以在“務實型”和“友好型”兩種性格之間進行選擇。Altman表示，用戶對這一點有著強烈偏好。在更實質性的層面上，模型在執行任務過程中會頻繁提供進度更新，允許用戶實時互動、提問、討論思路，并在不丟失上下文的情況下引導解決方案。

OpenAI表示：

“你不再需要等待最終結果，而是可以實時互動。GPT-5.3-Codex會講清楚它正在做什么，響應反饋，并從頭到尾讓你保持知情。”

公司承諾，未來幾周還將推出更多能力。Altman直言：“我相信Codex會贏。”

他在回應Anthropic時，用一句頗具哲學意味的話為這場競爭定調：

“這個時代，屬于建設者，而不屬于那些想要控制他們的人。”

更多>同類資訊

馬斯克三度確認：特斯拉Cybercab 4月投產開啟自動駕駛網約車新篇

02-17

從單兵到集群，從生成到創作：北京AI以創新突破引領全球新潮流

02-17

阿里開源千問Qwen3.5-Plus大模型：性能卓越成本低，多領域表現亮眼

02-17

賽博科技遇上傳統年俗：機器人運維工程師守護別樣年味

02-17

春晚機器人成焦點！從舞臺驚艷到賣爆，總導演揭秘背后深意

02-17

蘋果3月4日將辦特別活動傳低價MacBook等多款新品或全球同步登場

02-17

特斯拉FSD購買方式生變：永久購買選項取消訂閱模式成唯一選擇

02-17

烏干達時薪1.16美元的數據標注員：高壓之下為AI“投喂”的隱形勞動者

從在惡劣工作環境中掙扎、缺乏基本勞動保障的低收入且工作不穩定的數據標注員，到在全球頂尖科技公司總部享受高薪待遇的機器學習工程師，這些工作者站在技術變革的前沿，但AI驅動的監控和生產力工具正席卷各行各業，即使…

02-17

春晚機器人“霸屏”引熱議，市場搶購熱潮起，中國智造加速走進百姓家

面對2026年春晚舞臺上機器人節目占比顯著提升的熱議，于蕾正式回應稱，團隊旨在通過多維舞臺呈現，展現中國機器人產業的技術突破與文化融合。這場由春晚引發的機器人熱潮，不只是一場炫酷的科技秀，更是一次對中國智造…

02-17

春晚機器人成焦點：搜索訂單激增，總導演揭秘背后產業愿景

昨天的春晚，多個關于機器人的話題沖上熱搜。在除夕當晚10點，京東也上架了包括“春晚同款”機器人在內的多款機器人。在活動上線幾分鐘內，包括魔法原子、宇樹科技、松延動力等品牌的機器人即被搶購一空。春晚總導演…

02-17

春節AI購物熱潮涌動：1.3億人嘗鮮，電影票訂單激增372倍

一個用戶需求的背后，千問可以調度整個阿里生態為用戶服務——阿里生態體系的淘寶、支付寶、淘寶閃購、飛豬、高德、大麥都已接入千問，未來還將上線AI打車、充值手機話費、高德掃街榜團購等功能。 QuestMobil…

02-17

春晚“帶貨”實力強勁京東機器人搜索訂單量雙雙大漲

02-17

不做人形不卷通用，蘇亮以“工位型機器人”在商業場景中逐夢前行

02-17

宇樹科技領銜！春晚機器人集體“炫技” 具身智能產業迎新篇

02-17

松延動力攜多款人形機器人亮相春晚解鎖技術突破開啟商業化新篇

02-17

點擊查看更多 +

全站最新

豆包除夕AI互動19億次 Seedance2.0為春晚提供技術支持

"問界山河"點亮除夕夜！問界M9春晚《手到福來》掀起全網參與熱潮

烏干達時薪1.16美元的數據標注員：高壓之下為AI“投喂”的隱形勞動者

春晚機器人“霸屏”引熱議，市場搶購熱潮起，中國智造加速走進百姓家

春晚機器人成焦點：搜索訂單激增，總導演揭秘背后產業愿景

春節AI購物熱潮涌動：1.3億人嘗鮮，電影票訂單激增372倍

熱門內容

本欄最新

烏干達時薪1.16美元的數據標注員：高壓之下為AI“投喂”的隱形勞動者

春晚機器人“霸屏”引熱議，市場搶購熱潮起，中國智造加速走進百姓家

春晚機器人成焦點：搜索訂單激增，總導演揭秘背后產業愿景

春節AI購物熱潮涌動：1.3億人嘗鮮，電影票訂單激增372倍

馬斯克三次確認：特斯拉Cybercab 4月投產開啟自動駕駛網約車新篇

馬斯克三度確認：特斯拉Cybercab四月投產，自動駕駛網約車核心登場

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

AI編程大戰打響！OpenAI推出GPT-5.3-Codex，與Anthropic同步發布新模型