OpenAI 近日正式推出新一代大模型 GPT-5.4,這款被定位為“專業領域最強前沿模型”的產品,在上下文處理能力、推理性能及多模態交互方面實現突破性升級。該模型不僅支持單次處理百萬級 token 的超長文本,更首次集成原生計算機操控功能,標志著通用人工智能向復雜任務自動化邁出關鍵一步。
在核心參數方面,GPT-5.4 將上下文窗口擴展至 100 萬 token,較前代提升近 4 倍。不過當輸入超過 27.2 萬 token 時,費用將按階梯式計費——輸入價格翻倍至每百萬 token 5 美元,輸出成本增加 50%。盡管基礎輸入單價較 GPT-5.2 上漲 43%,OpenAI 強調模型效率提升使實際使用成本可能不升反降,其 Pro 版本定價甚至高于 Anthropic 同級別產品 Claude Opus 4.6。
性能測試數據顯示顯著進步:在 OSWorld-Verified 基準測試中,該模型以 75% 的成功率超越人類專家 72.4% 的表現;電子表格建模任務準確率從 68.4% 躍升至 87.3%;BrowseComp 網頁信息檢索能力提升 17 個百分點,Pro 版本達 89.3%。更引人注目的是其原生計算機操控能力,通過 Playwright 庫或屏幕截圖指令,模型可自主完成“構建-運行-驗證-修復”的完整工作流,在演示中僅憑單條提示詞即生成包含路徑規劃、設施建造的樂園模擬游戲。
針對開發者痛點,新引入的 Tool Search 機制實現工具檢索動態化。模型僅需加載輕量級工具列表,使用時再實時調取完整定義,在 MCP Atlas 基準測試中使 token 消耗降低 47%,同時保持準確率。這項優化使構建大型智能體系統的成本顯著下降,響應速度提升 30% 以上。
金融行業成為首批重點應用場景。配套發布的 ChatGPT for Excel 測試版,可直接嵌入電子表格完成復雜財務模型構建與分析。通過與 FactSet、MSCI 等數據服務商的深度集成,模型可自動化執行盈利預覽、DCF 分析等標準化任務。內部測試顯示,其在投資銀行基準測試中的表現從 43.7% 飆升至 88%,較前代提升近一倍。
盡管整體性能提升顯著,模型仍存在特定領域短板。在 HealthBench 醫療評測中得分 62.6%,較前代下降 0.7 個百分點;平均回復長度增加 24% 雖提升信息密度,但也可能導致冗余。早期測試者指出,其前端設計能力弱于 Claude Opus 4.6,且在現實場景理解方面偶發失誤,如規劃旅行時推薦熱門景點導致體驗下降。
該模型采用差異化授權策略:標準版 GPT-5.4 Thinking 面向 Plus 用戶開放,Pro 版本僅限月費 200 美元的 ChatGPT Pro 和 Enterprise 訂閱者使用。免費用戶僅在系統自動路由時可能體驗基礎功能。OpenAI 表示,此次升級標志著 AI 從單一任務處理向跨應用工作流管理的范式轉變,為智能體框架提供更強大的底層引擎。











