滾動(dòng)資訊

當(dāng)前位置：首頁 > 資訊 > 人工智能 > 正文內(nèi)容

GPT-5.3-Codex刷新多項(xiàng)AI編程基準(zhǔn)成績

時(shí)間：2026-02-09 11:29:16 來源：鞭牛士編輯：快訊 IP：北京 發(fā)表評(píng)論無障礙通道

AIPress.com.cn報(bào)道

OpenAI 近日正式發(fā)布 GPT-5.3-Codex，這是其迄今為止最先進(jìn)的代碼專用 AI 代理模型。OpenAI 表示，該模型在性能與響應(yīng)速度上均較上一代 GPT-5.2-Codex 實(shí)現(xiàn)顯著提升，面向?qū)I(yè)軟件開發(fā)和工程級(jí)工作流設(shè)計(jì)。

在性能方面，GPT-5.3-Codex 在多項(xiàng)權(quán)威基準(zhǔn)測試中取得新紀(jì)錄。在 SWE-bench Pro（Public）測試中，該模型準(zhǔn)確率達(dá)到 56.8%。該基準(zhǔn)主要用于評(píng)估模型在多語言軟件工程任務(wù)中的綜合能力，被視為衡量代碼代理實(shí)用性的核心指標(biāo)之一。

提升最為明顯的體現(xiàn)在 Terminal-Bench 2.0 上。這一基準(zhǔn)重點(diǎn)評(píng)估模型在終端環(huán)境中執(zhí)行命令、完成系統(tǒng)級(jí)操作的能力。GPT-5.3-Codex 在該測試中的成績從上一代的 64.0% 提升至 77.3%，顯示其在真實(shí)開發(fā)環(huán)境下的操作穩(wěn)定性和執(zhí)行準(zhǔn)確性明顯增強(qiáng)。

在 OSWorld-Verified 基準(zhǔn)測試中，GPT-5.3-Codex 取得 64.7% 的成績。該測試衡量模型結(jié)合計(jì)算機(jī)視覺完成桌面級(jí)任務(wù)的能力，其得分已接近人類平均水平（72%），并顯著高于上一代模型的 38.2%。

在產(chǎn)品功能上，OpenAI 為 Codex 應(yīng)用引入了新的“指導(dǎo)（guidance）”能力，使開發(fā)者可以在模型執(zhí)行復(fù)雜工程任務(wù)的過程中進(jìn)行實(shí)時(shí)交互，包括調(diào)整方向、補(bǔ)充信息以及協(xié)同調(diào)試。這一機(jī)制旨在避免傳統(tǒng)代碼生成過程中上下文中斷的問題，使模型更貼近真實(shí)開發(fā)協(xié)作流程。

在底層基礎(chǔ)設(shè)施方面，GPT-5.3-Codex 的訓(xùn)練和部署運(yùn)行在 NVIDIA GB200 NVL72 系統(tǒng)之上。OpenAI 表示，該系統(tǒng)體現(xiàn)了其與 NVIDIA 的協(xié)同設(shè)計(jì)成果，重點(diǎn)優(yōu)化推理性能，并在復(fù)雜任務(wù)中降低 token 使用成本。

在安全與合規(guī)層面，OpenAI 在其 Preparedness framework 中將 GPT-5.3-Codex 歸類為“高能力（High Capability）”模型，尤其是在生物安全和網(wǎng)絡(luò)安全相關(guān)任務(wù)中。該模型接受了針對(duì)軟件漏洞識(shí)別的專項(xiàng)訓(xùn)練，并配套實(shí)施了更嚴(yán)格的自動(dòng)化監(jiān)控機(jī)制和受控訪問策略，用于防御性研究用途。

整體來看，GPT-5.3-Codex 被 OpenAI 視為從“代碼助手”向“自主工程代理”轉(zhuǎn)變的重要節(jié)點(diǎn)，其核心特征包括更低延遲、更強(qiáng)的多語言工程能力，以及跨環(huán)境執(zhí)行復(fù)雜任務(wù)的能力。（AI普瑞斯編譯）

更多>同類資訊

從對(duì)話到實(shí)干：豆包大模型2.0化身全能助手，多領(lǐng)域展現(xiàn)驚人動(dòng)手能力

因?yàn)橐粋€(gè)模型犯錯(cuò)其實(shí)是不可避免的，這和用戶的提示詞、當(dāng)前的上下文都脫不開關(guān)系，而真正重要的是它知錯(cuò)就改的能力，在你需求描述越來越精確后，它能精準(zhǔn)捕捉需求，并快速解決錯(cuò)誤。我這不會(huì)寫代碼的也試了試，我拿它擼了…

02-21

王興興：現(xiàn)階段機(jī)器人技術(shù)與10歲小孩接近大規(guī)模應(yīng)用還需時(shí)間

02-21

《西游后傳》播放量2億！漫屋ERP正輔助漫劇狂飆

02-21

我國科學(xué)家研發(fā)天文AI模型“星衍” 解鎖暗弱天體繪制極深宇宙圖景

我國科學(xué)家基于計(jì)算光學(xué)原理與人工智能算法，開發(fā)出天文AI模型“星衍”，可解鎖暗弱天體信號(hào)，探測到超過130億光年的星系，并獲取目前國際已知探測最深的深空影像。《科學(xué)》審稿人評(píng)價(jià)，該研究為探測宇宙提供了“強(qiáng)大…

02-21

特斯拉歐洲市場迎新舉措：xAI Grok將率先在9國上線，卻陷輿論風(fēng)波

02-21

王興興談機(jī)器人：技術(shù)接近10歲孩童，大規(guī)模應(yīng)用或3至10年內(nèi)實(shí)現(xiàn)

02-21

00后“機(jī)器人訓(xùn)練師”：在重復(fù)與精準(zhǔn)中，為鋼鐵“伙伴”注入智慧靈魂

02-21

貴陽大數(shù)據(jù)交易所立標(biāo)準(zhǔn)破難題數(shù)據(jù)交易迎來安全與價(jià)值量化新篇章

02-21

澳研究：多數(shù)人自信能辨AI人臉，實(shí)則能力難追技術(shù)進(jìn)步步伐

02-21

GitHub2025報(bào)告：近半代碼由AI生成，初級(jí)程序員遇冷，AI架構(gòu)師成新寵

2026年2月13日這一天，全球程序員的朋友圈被GitHub那份沉甸甸的Octoverse2025年度報(bào)告刷屏，不是因?yàn)榧夹g(shù)突破，而是因?yàn)轱埻胝娴谋辉伊恕，F(xiàn)在的AI Agent還不是神，它會(huì)寫出邏輯自洽但完…

02-21

特斯拉：xAI Grok將上線歐洲市場，率先在9國推出

02-21

宇樹王興興：最大的對(duì)手從來都是我們自己

02-21

王興興：現(xiàn)階段機(jī)器人技術(shù)與10歲小孩接近

02-21

OpenAI計(jì)劃明年推出AI音箱，定價(jià)200至300美元之間

02-21

死神降臨！Anthropic上周引發(fā)SaaS末日

02-21

點(diǎn)擊查看更多 +

全站最新

OPPO與vivo超大杯旗艦蓄勢待發(fā)，影像新突破外掛增距鏡成亮點(diǎn)

預(yù)算十幾萬想選家用車？這3款安全耐用性價(jià)比高，開十年八年不操心

增程技術(shù)：看似簡單卻為何成高端市場新寵，價(jià)格攀升背后有何玄機(jī)？

十二缸傳奇：從經(jīng)典到極致，盤點(diǎn)內(nèi)燃機(jī)時(shí)代的九大V12巔峰之作

特斯拉App 4.54.0版新功能：FSD數(shù)據(jù)同步手機(jī)端還能一鍵分享曬圖

豐田2026款RAV4部分車型支持Apple Wallet車鑰匙需特定設(shè)備及訂閱服務(wù)

熱門內(nèi)容

本欄最新

從對(duì)話到實(shí)干：豆包大模型2.0化身全能助手，多領(lǐng)域展現(xiàn)驚人動(dòng)手能力

GitHub2025報(bào)告：近半代碼由AI生成，初級(jí)程序員遇冷，AI架構(gòu)師成新寵

科技賦能新春歸途：智慧加能站讓返鄉(xiāng)之路更高效暖心又便捷

科技賦能春運(yùn)新圖景：智慧加能站解鎖返鄉(xiāng)路高效暖心新體驗(yàn)

科技賦能春運(yùn)新圖景：智慧加能站助力返鄉(xiāng)路高效暖心共赴團(tuán)圓

蘇州制造企業(yè)如何選畫冊(cè)設(shè)計(jì)機(jī)構(gòu)？看懂大廠案例背后的專業(yè)邏輯

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR比爾科技官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號(hào)-1 聯(lián)系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

GPT-5.3-Codex刷新多項(xiàng)AI編程基準(zhǔn)成績