滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

GPT-5.3上線Codex！OpenAI回應Claude新模型只用了15分鐘

時間：2026-02-07 00:18:52 來源：量子位編輯：快訊 IP：北京 發表評論無障礙通道

火星撞地球，新模型大戰！

Claude Opus 4.6發布僅僅15分鐘，OpenAI也甩出了自己最新最強編程模型——

GPT-5.3-Codex。

最直觀的感受是，這個新模型終于有點美學品味了。

官方展示了兩個Demo：一個賽車游戲、一個潛水游戲。還蠻有風格的。

據說，GPT-5.3-Codex在幾乎沒有人工干預的情況下，持續迭代這些游戲，累計消耗了數百萬token。

在網頁開發上，除了UI更好看，對「意圖」的理解也更強了。

即便Prompt給得不清楚，它也能自動補全邏輯，生成一個功能齊全的網站。

就這些Demo來看，設計感確實比之前強了一截。

Computer use能力同樣拉滿，現在已經能用來幫金融從業者直接做PPT。

其他職場工作也能覆蓋，尤其是在專業知識密集型任務上，寫文檔、做電子表格都沒什么問題。

硬實力方面，官方給出的亮點如下：

更聰明：SWE-Bench Pro 57%，TerminalBench 2.0 76%，OSWorld 64%。更可控：支持任務進行中的實時引導，可隨時調整方向并獲取更新。更快速：完成相同任務時，所需token不到5.2-Codex的一半，單token速度提升超過25%。更Agent：不只是更會寫代碼，計算機操作同樣很強。

直接看這張對比表會更直觀，幾乎每一個維度，都比上一代有明顯提升。

網友直呼過于刺激，昨天OpenAI剛被Anthropic拿廣告狙了一槍，今天就對轟了回來。

一天之內，兩個重量級編程模型。

評論區也迅速分成了Anthropic派和OpenAI派。

下面來看看，這場奧特曼主動挑起的AI coding大戰，OpenAI到底表現如何？

GPT 5.3 Codex

大家最關心的，當然還是編程能力。

OpenAI表示，GPT-5.3-Codex在SWE-Bench Pro上實現了SOTA。

這是一個專為真實世界軟件工程設計的測試，覆蓋四種編程語言，整體難度更高、任務更豐富，也更貼近真實生產場景。

同時，GPT-5.3-Codex在Terminal-Bench 2.0上的表現也有明顯提升。

更關鍵的是效率。在拿下這些成績的同時，GPT-5.3-Codex使用的token數量少于任何以往模型。

除了編程能力，新一代Codex的另一個重點是Computer use。

OSWorld是一項面向智能體的計算機使用基準測試，要求模型在可視化的桌面計算機環境中完成各類生產力任務。

結果顯示，GPT-5.3-Codex在計算機使用能力上，明顯強于此前的GPT模型。

綜上，GPT-5.3-Codex不是一次單點模型能力突破，更像是基于智能體的全方位發展，編碼、前端開發、計算機操作全都有提升。

更有意思的是，這次GPT-5.3-Codex直接參與了自己的訓練過程。

OpenAI表示，這是他們首個參與「自我加速」的模型。Codex團隊在研發過程中使用其早期版本，來調試自身訓練流程、管理部署，并評估測試結果。

官方也給出了一些具體例子。

在訓練階段，研究團隊使用Codex監控和調試訓練任務，幫助在整個訓練過程中追蹤模型行為變化，對交互進行深入分析，并提出改進方案。

在數據分析方面，一位數據科學家與GPT-5.3-Codex協作，構建了新的數據管道，并以遠超傳統儀表盤工具的方式對結果進行了可視化。

隨后，研究人員與Codex一起分析這些結果，模型在不到三分鐘內，就從數千個數據點中提煉出了關鍵洞見。

工程團隊則借助Codex優化和適配GPT-5.3-Codex的測試與運行框架。

當開始出現影響用戶體驗的異常邊緣案例時，團隊成員通過Codex定位到了上下文渲染相關的缺陷，并進一步追溯到了緩存命中率偏低的原因。

Two More Things

與Anthropic的巔峰對決的確相當精彩，但OpenAI其實還有兩個值得關注的大動作。

1、Frontier：一個幫助企業打造「AI同事」的平臺

這是OpenAI一項相當重磅的ToB業務，目標很明確：讓Agent真正進入公司工作流。

具體實現方式，包括共享上下文、上手式的入職引導、帶反饋的實踐學習，以及清晰的權限與邊界。

據悉，HP、Intuit、Oracle、State Farm、Thermo Fisher和Uber等知名企業，已經早早采用了Frontier。

2、AI4S：OpenAI和Ginkgo聯手，用GPT-5把蛋白質合成成本打下來了40%

這是一家做合成生物學的實驗室型公司，他們將GPT-5接入一座自主實驗室，讓模型可以提出實驗方案、規模化執行實驗、從結果中學習，并決定下一步該嘗試什么，完整跑通了一個閉環。

2026年，或許是AI4S加速演進的一年。

不過，在OpenAI忙著和Anthropic對狙，網友們被一系列新動態弄的眼花繚亂的同時，評論區也有另一種聲音。

把4o還給我！！

直到現在，奧特曼依然沒有回應4o被徹底下架這件事。

更多>同類資訊

生數科技開源統一世界模型 Motus

02-07

?面壁智能首推“松果派”：AI原生端側開發板開啟硬件開發新范式

02-06

務實耕耘三年路：昆侖萬維穿越AI周期，以技術實力叩響千億大門

02-06

千問APP春節活動火爆卻遇分享難題：微信復制受限，官方緊急應對

02-06

Claude Opus 4.6震撼登場：從助手到“數字同事”，AI職場革命已來

02-06

千問春節30億免單活動掀熱潮！奶茶店爆單閉店網友笑稱喝啥看騎手“運氣”

02-06

特斯拉中國布局AI訓練中心自主投入助力本地輔助駕駛與AI應用發展

02-06

全球芯片需求持續升溫，美半導體協會預測2026年銷售額將破萬億美元大關

02-06

WeMeet AI智能體上海發布：賦能商務會議破解跨語言等三大難題

02-06

從兒童到老年全覆蓋，陪伴機器人憑“情緒價值”開啟千億級新藍海

02-06

生數科技聯合清華開源Motus模型，為具身智能發展提供新路徑

02-06

焦易小智：以AI大模型破局炭基導電新材料產業，引領智能化升級新路徑

針對行業“原料指標復雜、產業鏈碎片化、低水平競爭”等問題，焦易小智整合全產業鏈數據（原料檢測、生產工藝、供應鏈物流等），構建覆蓋“采-產-供-銷”全流程的產業大腦，開發石油焦關鍵指標預測模型，將原料采購決策效…

02-06

國家超算互聯網核心節點鄭州試運行萬卡集群賦能中部算力新飛躍

其算力資源由曙光scaleX萬卡超集群系統提供支撐，可對外提供超3萬卡的國產AI算力，是國家超算互聯網平臺上線以來接入的全國最大單體國產AI算力資源池，可為萬億參數模型訓練、高通量推理、AIfor Scie…

02-06

國家超算互聯網核心節點鄭州試運行萬卡集群賦能中部算力新飛躍

其算力資源由曙光scaleX萬卡超集群系統提供支撐，可對外提供超3萬卡的國產AI算力，是國家超算互聯網平臺上線以來接入的全國最大單體國產AI算力資源池，可為萬億參數模型訓練、高通量推理、AIfor Scie…

02-06

“十四五”收官亮眼！我國網民破11.25億，互聯網賦能數字社會新發展

《中國互聯網絡發展狀況統計報告》顯示，目前我國中小企業數量超6000萬家，已累計培育專精特新“小巨人”企業超1.76萬家，從行業分布看，超六成“小巨人”企業深耕工業基礎領域，量子科技、人工智能、低空經濟等未…

02-06

點擊查看更多 +

全站最新

公告精選︱航宇科技：擬不超過1.05億歐元投資建設斯洛伐克工業裝備零部件鍛造生產基地；真愛美家：不涉及人工智能業務

美股三大指數均漲超1%

中東Robotaxi進入"千輛時代"，文遠知行攜手Uber刷新區域紀錄

2月9日A股投資避雷針︱天晟新材：因涉嫌信息披露違法違規證監會對公司立案

中東Robotaxi進入"千輛時代"，文遠知行攜手Uber刷新區域紀錄

1.6萬輛！中國重汽1月重卡出口再創新高

熱門內容

本欄最新

國家超算互聯網核心節點鄭州試運行萬卡集群賦能中部算力新飛躍

立春啟新程一汽奔騰雙擎戰略領航攜手伙伴共赴智電新未來

中科曙光3套萬卡超集群落地鄭州，國產AI算力邁入實戰新階段

11.25億網民共繪數字藍圖，生成式AI滲透生活生產新圖景

理想汽車二季度將發全新L9 Livis版：自研“馬赫100”芯片智能化程度大提升

2025年我國互聯網發展“加速跑”：普及率超80%，AI用戶破6億

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

GPT-5.3上線Codex！OpenAI回應Claude新模型只用了15分鐘