OpenAI在毫無預兆的情況下,正式上線了GPT-5.4 mini與GPT-5.4 nano兩款輕量級模型,迅速引發(fā)行業(yè)關注。這兩款模型以“快、準、省”為核心賣點,直接瞄準生產(chǎn)環(huán)境中的實際需求,試圖在速度、成本與性能之間找到最佳平衡點。
在編碼能力測試中,GPT-5.4 mini展現(xiàn)出了驚人的實力。以SWE-Bench Pro基準為例,該模型取得了54.4%的成績,與滿血版GPT-5.4的57.7%差距微乎其微。這意味著,在修復GitHub真實軟件Bug這類復雜任務中,mini已接近旗艦模型的天花板。更令人驚訝的是,其運行速度較上一代GPT-5 mini提升了整整一倍,而成本卻大幅降低。另一項測試Terminal-Bench 2.0中,mini以60.0%的成績遠超前代的38.2%,提升幅度超過57%。即便是定位更輕量的nano,也在SWE-Bench Pro上取得了52.4%的成績,比上一代mini高出近7%,展現(xiàn)了蒸餾模型技術的飛速進步。
推理與工具調用能力是衡量模型實用性的關鍵指標。在博士級科學推理基準GPQA Diamond上,GPT-5.4 mini取得了88%的成績,與旗艦版僅差5%。而在工具調用領域,其表現(xiàn)更為突出。Toolathlon測試中,mini以42.9%的得分碾壓GPT-5 mini的26.9%,展現(xiàn)了在復雜工具鏈中正確組合、排序和使用多種工具的能力。在電信行業(yè)專用基準τ2-bench上,mini以93.4%的高分幾乎追平滿血版的98.9%,將前代遠遠甩在身后。這些數(shù)據(jù)表明,mini已不再是一個簡單的“縮小版”,而是能夠獨立承擔復雜任務鏈的生產(chǎn)級工具。
計算機使用能力是GPT-5.4 mini的另一大亮點。在OSWorld-Verified測試中,該模型取得了72.1%的成績,與旗艦版的75.0%差距不足3個百分點,而前代GPT-5 mini僅得42.0%,一代之間能力幾乎翻倍。這一突破意味著,AI已初步具備“看屏幕干活”的能力——能夠解析UI截圖、定位操作元素并做出正確決策。然而,nano在該測試中僅得39.0%,甚至略低于前代,顯示出視覺推理能力對模型規(guī)模的敏感依賴。在MMMUPro測試中,mini以78.0%的成績接近旗艦版的81.5%,進一步驗證了其在多模態(tài)推理任務中的潛力。
成本與速度的優(yōu)化是這兩款模型的核心優(yōu)勢。GPT-5.4 mini提供400k超大上下文窗口,輸入價格為0.75美元/百萬token,輸出價格為4.5美元/百萬token,較旗艦版輸出價格低三分之一。而nano的價格更為驚人,輸入僅需0.2美元/百萬token,輸出1.25美元/百萬token,僅為旗艦版的十二分之一。實際使用中,有開發(fā)者反饋,mini的速度不僅遠超前代,甚至比Claude 4.6 Opus便宜9倍,性價比優(yōu)勢顯著。
OpenAI在此次發(fā)布中強調了“分層調度”的架構理念。旗艦模型GPT-5.4負責規(guī)劃與決策,而將具體任務分發(fā)給mini子智能體并行執(zhí)行。例如,在Codex中,開發(fā)者可以讓旗艦模型制定整體方案,再由多個mini子智能體處理搜索代碼庫、審查文件等子任務。這種模式下,mini僅消耗旗艦模型配額的30%,意味著同等預算可運行三倍以上的任務量。Hebbia的CTO評價稱,mini在多項任務中以更低成本實現(xiàn)了與競品相當甚至更優(yōu)的效果,證明了“小模型更好用”已成為現(xiàn)實。
目前,GPT-5.4 mini已全面上線,支持API、Codex和ChatGPT三端使用。API定價為輸入0.75美元/百萬token,輸出4.50美元/百萬token,上下文窗口達400K,支持文本、圖像輸入及工具調用、網(wǎng)絡搜索等全套能力。nano則僅在API中提供,價格更低。在ChatGPT端,mini向免費用戶開放,付費用戶額度耗盡時會自動降級使用mini,既降低了使用門檻,也緩解了用戶的“額度焦慮”。
盡管表現(xiàn)亮眼,GPT-5.4 mini仍存在短板。在長上下文處理測試中,如OpenAI MRCR v2的8針搜索任務,旗艦版在64K-128K窗口下得分為86.0%,而mini僅得47.7%,差距近40個百分點。在128K-256K窗口下,差距進一步擴大至79.3%對33.6%。Graphwalks測試中,旗艦版在父節(jié)點追蹤任務上得分為89.8%,mini為71.5%。這表明,在需要精確檢索超長文本或邏輯追蹤的場景中,mini仍無法替代旗艦版。然而,OpenAI的產(chǎn)品策略正是通過分層滿足不同需求——mini專注于速度、編碼與工具調用,而旗艦版則處理長文本等復雜任務。










