AIPress.com.cn報(bào)道
OpenAI 近日正式發(fā)布 GPT-5.3-Codex,這是其迄今為止最先進(jìn)的代碼專用 AI 代理模型。OpenAI 表示,該模型在性能與響應(yīng)速度上均較上一代 GPT-5.2-Codex 實(shí)現(xiàn)顯著提升,面向?qū)I(yè)軟件開發(fā)和工程級(jí)工作流設(shè)計(jì)。
在性能方面,GPT-5.3-Codex 在多項(xiàng)權(quán)威基準(zhǔn)測試中取得新紀(jì)錄。在 SWE-bench Pro(Public)測試中,該模型準(zhǔn)確率達(dá)到 56.8%。該基準(zhǔn)主要用于評(píng)估模型在多語言軟件工程任務(wù)中的綜合能力,被視為衡量代碼代理實(shí)用性的核心指標(biāo)之一。
提升最為明顯的體現(xiàn)在 Terminal-Bench 2.0 上。這一基準(zhǔn)重點(diǎn)評(píng)估模型在終端環(huán)境中執(zhí)行命令、完成系統(tǒng)級(jí)操作的能力。GPT-5.3-Codex 在該測試中的成績從上一代的 64.0% 提升至 77.3%,顯示其在真實(shí)開發(fā)環(huán)境下的操作穩(wěn)定性和執(zhí)行準(zhǔn)確性明顯增強(qiáng)。
在 OSWorld-Verified 基準(zhǔn)測試中,GPT-5.3-Codex 取得 64.7% 的成績。該測試衡量模型結(jié)合計(jì)算機(jī)視覺完成桌面級(jí)任務(wù)的能力,其得分已接近人類平均水平(72%),并顯著高于上一代模型的 38.2%。
在產(chǎn)品功能上,OpenAI 為 Codex 應(yīng)用引入了新的“指導(dǎo)(guidance)”能力,使開發(fā)者可以在模型執(zhí)行復(fù)雜工程任務(wù)的過程中進(jìn)行實(shí)時(shí)交互,包括調(diào)整方向、補(bǔ)充信息以及協(xié)同調(diào)試。這一機(jī)制旨在避免傳統(tǒng)代碼生成過程中上下文中斷的問題,使模型更貼近真實(shí)開發(fā)協(xié)作流程。
在底層基礎(chǔ)設(shè)施方面,GPT-5.3-Codex 的訓(xùn)練和部署運(yùn)行在 NVIDIA GB200 NVL72 系統(tǒng)之上。OpenAI 表示,該系統(tǒng)體現(xiàn)了其與 NVIDIA 的協(xié)同設(shè)計(jì)成果,重點(diǎn)優(yōu)化推理性能,并在復(fù)雜任務(wù)中降低 token 使用成本。
在安全與合規(guī)層面,OpenAI 在其 Preparedness framework 中將 GPT-5.3-Codex 歸類為“高能力(High Capability)”模型,尤其是在生物安全和網(wǎng)絡(luò)安全相關(guān)任務(wù)中。該模型接受了針對(duì)軟件漏洞識(shí)別的專項(xiàng)訓(xùn)練,并配套實(shí)施了更嚴(yán)格的自動(dòng)化監(jiān)控機(jī)制和受控訪問策略,用于防御性研究用途。
整體來看,GPT-5.3-Codex 被 OpenAI 視為從“代碼助手”向“自主工程代理”轉(zhuǎn)變的重要節(jié)點(diǎn),其核心特征包括更低延遲、更強(qiáng)的多語言工程能力,以及跨環(huán)境執(zhí)行復(fù)雜任務(wù)的能力。(AI普瑞斯編譯)











