2 月 3 日消息,人工智能已然對軟件開發的方式產生顛覆性影響,如今編程中大量繁重瑣碎的工作,都由一眾智能體與子智能體完成。但開發者們仍在不斷探索人機協作的全新交互界面與產品形態,即便最頂尖的人工智能實驗室,也難以跟上這一迭代節奏。
據了解,當下的主流趨勢是智能體化軟件開發,即人工智能智能體可獨立完成編碼任務的系統,Claude Code 與 Cowork 這類應用便是該模式的典型代表。與此同時,OpenAI 也在逐步完善其 Codex 工具,該工具于去年 4 月以命令行工具的形式推出,一個月后便拓展出網頁端界面。
如今 OpenAI 正式邁出追趕的關鍵一步。當地時間本周一,該公司推出了適配 macOS 系統的全新 Codex 應用,整合了過去一年間廣泛流行的各類智能體化開發邏輯。這款新應用支持多智能體并行作業,可融合不同智能體的能力,以及當前最前沿的工作流程。此次發布距離 OpenAI 推出其最強編碼大模型 GPT-5.2-Codex,尚不足兩個月,公司希望憑借該模型吸引 Claude Code 的用戶。
OpenAI 首席執行官薩姆?奧爾特曼在媒體電話發布會中表示:“若要處理復雜場景下的高精尖開發工作,GPT-5.2 是目前性能最強的模型。但它此前的使用門檻偏高,因此我們認為,將這款模型的強大能力封裝進更靈活的交互界面,會具備極為重要的價值。”
盡管奧爾特曼對 GPT-5.2 充滿信心,但各類編碼基準測試的結果卻呈現出更復雜的態勢。截至發稿,GPT-5.2 在 TerminalBench(一項衡量人工智能處理命令行編程任務能力的測試)中暫居榜首,不過 Gemini 3 與 Claude Opus 的智能體得分與其基本持平(數值略低),處于該基準測試的誤差允許范圍內。另一項測試人工智能修復真實軟件漏洞能力的基準測試 SWE-bench,結果也與之相似,GPT-5.2 并未展現出明顯優勢。不過,智能體化的應用場景很難通過現有基準進行有效評估,且頂尖模型在用戶體驗上的差異可能十分顯著。
這款 Codex 應用還搭載了多項全新功能,這些功能將幫助其達到與各類 Claude 應用相當的水平,部分場景下甚至實現反超。應用支持設置自動化任務,可按預設計劃在后臺自動運行,執行結果會存入隊列,待用戶返回后統一查看。用戶還能根據自身工作風格,為智能體選擇不同交互風格,從務實理性型到共情溝通型均可切換。
但對 OpenAI 而言,這款產品最大的核心賣點,是人工智能帶來的極致開發效率。奧爾特曼稱:“你可以從零開始,僅憑這款工具,在數小時內開發出功能相當復雜的軟件。我能多快輸入新的創意,軟件的開發速度就有多快,這便是唯一的限制。”











