滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

GPT-5.4雙子星突襲：輕量級模型性能逼近滿血版，AI應用加速普及

時間：2026-03-18 09:13:40 來源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評論無障礙通道

OpenAI在毫無預兆的情況下，正式上線了GPT-5.4 mini與GPT-5.4 nano兩款輕量級模型，迅速引發(fā)行業(yè)關注。這兩款模型以“快、準、省”為核心賣點，直接瞄準生產(chǎn)環(huán)境中的實際需求，試圖在速度、成本與性能之間找到最佳平衡點。

在編碼能力測試中，GPT-5.4 mini展現(xiàn)出了驚人的實力。以SWE-Bench Pro基準為例，該模型取得了54.4%的成績，與滿血版GPT-5.4的57.7%差距微乎其微。這意味著，在修復GitHub真實軟件Bug這類復雜任務中，mini已接近旗艦模型的天花板。更令人驚訝的是，其運行速度較上一代GPT-5 mini提升了整整一倍，而成本卻大幅降低。另一項測試Terminal-Bench 2.0中，mini以60.0%的成績遠超前代的38.2%，提升幅度超過57%。即便是定位更輕量的nano，也在SWE-Bench Pro上取得了52.4%的成績，比上一代mini高出近7%，展現(xiàn)了蒸餾模型技術的飛速進步。

推理與工具調用能力是衡量模型實用性的關鍵指標。在博士級科學推理基準GPQA Diamond上，GPT-5.4 mini取得了88%的成績，與旗艦版僅差5%。而在工具調用領域，其表現(xiàn)更為突出。Toolathlon測試中，mini以42.9%的得分碾壓GPT-5 mini的26.9%，展現(xiàn)了在復雜工具鏈中正確組合、排序和使用多種工具的能力。在電信行業(yè)專用基準τ2-bench上，mini以93.4%的高分幾乎追平滿血版的98.9%，將前代遠遠甩在身后。這些數(shù)據(jù)表明，mini已不再是一個簡單的“縮小版”，而是能夠獨立承擔復雜任務鏈的生產(chǎn)級工具。

計算機使用能力是GPT-5.4 mini的另一大亮點。在OSWorld-Verified測試中，該模型取得了72.1%的成績，與旗艦版的75.0%差距不足3個百分點，而前代GPT-5 mini僅得42.0%，一代之間能力幾乎翻倍。這一突破意味著，AI已初步具備“看屏幕干活”的能力——能夠解析UI截圖、定位操作元素并做出正確決策。然而，nano在該測試中僅得39.0%，甚至略低于前代，顯示出視覺推理能力對模型規(guī)模的敏感依賴。在MMMUPro測試中，mini以78.0%的成績接近旗艦版的81.5%，進一步驗證了其在多模態(tài)推理任務中的潛力。

成本與速度的優(yōu)化是這兩款模型的核心優(yōu)勢。GPT-5.4 mini提供400k超大上下文窗口，輸入價格為0.75美元/百萬token，輸出價格為4.5美元/百萬token，較旗艦版輸出價格低三分之一。而nano的價格更為驚人，輸入僅需0.2美元/百萬token，輸出1.25美元/百萬token，僅為旗艦版的十二分之一。實際使用中，有開發(fā)者反饋，mini的速度不僅遠超前代，甚至比Claude 4.6 Opus便宜9倍，性價比優(yōu)勢顯著。

OpenAI在此次發(fā)布中強調了“分層調度”的架構理念。旗艦模型GPT-5.4負責規(guī)劃與決策，而將具體任務分發(fā)給mini子智能體并行執(zhí)行。例如，在Codex中，開發(fā)者可以讓旗艦模型制定整體方案，再由多個mini子智能體處理搜索代碼庫、審查文件等子任務。這種模式下，mini僅消耗旗艦模型配額的30%，意味著同等預算可運行三倍以上的任務量。Hebbia的CTO評價稱，mini在多項任務中以更低成本實現(xiàn)了與競品相當甚至更優(yōu)的效果，證明了“小模型更好用”已成為現(xiàn)實。

目前，GPT-5.4 mini已全面上線，支持API、Codex和ChatGPT三端使用。API定價為輸入0.75美元/百萬token，輸出4.50美元/百萬token，上下文窗口達400K，支持文本、圖像輸入及工具調用、網(wǎng)絡搜索等全套能力。nano則僅在API中提供，價格更低。在ChatGPT端，mini向免費用戶開放，付費用戶額度耗盡時會自動降級使用mini，既降低了使用門檻，也緩解了用戶的“額度焦慮”。

盡管表現(xiàn)亮眼，GPT-5.4 mini仍存在短板。在長上下文處理測試中，如OpenAI MRCR v2的8針搜索任務，旗艦版在64K-128K窗口下得分為86.0%，而mini僅得47.7%，差距近40個百分點。在128K-256K窗口下，差距進一步擴大至79.3%對33.6%。Graphwalks測試中，旗艦版在父節(jié)點追蹤任務上得分為89.8%，mini為71.5%。這表明，在需要精確檢索超長文本或邏輯追蹤的場景中，mini仍無法替代旗艦版。然而，OpenAI的產(chǎn)品策略正是通過分層滿足不同需求——mini專注于速度、編碼與工具調用，而旗艦版則處理長文本等復雜任務。

03-18

黃仁勛力挺OpenClaw：AI智能體變革互動方式，拓展個人能力邊界

03-18

2026年GTC大會：黃仁勛描繪AI新藍圖英偉達轉型經(jīng)濟體構建者

03-18

理想汽車2025年業(yè)績承壓，2026年以三大支柱謀20%銷量增長新局

03-18

OpenAI發(fā)布GPT-5.4 mini與nano：低延遲高效能，多場景應用潛力大

03-18

2026世界互聯(lián)網(wǎng)大會亞太峰會啟幕，聚焦數(shù)字議題共促亞太數(shù)智新發(fā)展

在分論壇與配套活動設置上，峰會精準契合行業(yè)發(fā)展趨勢，圍繞智能體創(chuàng)新與應用、數(shù)字金融、人工智能安全治理、智惠民生、數(shù)智健康和典籍數(shù)智化與傳播六大主題，設置了6個分論壇，全面回應各方在數(shù)智化發(fā)展中的共同關切。 …

03-18

AI“推理時代”激戰(zhàn)正酣：英偉達布局降本，中國大模型性價比領跑全球

黃仁勛在演講中毫不諱言英偉達的雄心，他手舉一條印有“InferenceX”（推理之王）的冠軍腰帶，并多次強調英偉達通過軟硬件的“極致協(xié)同設計”（Extreme Co-design），實現(xiàn)了全球最低的Token…

03-18

英偉達GTC炸場！NemoClaw亮相，Vera Rubin算力飆升開啟新紀元

臺上，老黃展示了Vera Rubin系統(tǒng)，進化速度是肉眼可見的—— 老黃特別強調了一點：這是全球唯一一顆在數(shù)據(jù)中心使用LPDDR5的CPU。老黃在整場keynote里反復說的一句話是：英偉達是一家「垂直整…

03-18

技術為翼，生態(tài)為基：探路如何以復用技術構建全場景出行新未來？

03-18

AI賦能家用咖啡機：從“玄學操作”到“科學適配”的體驗躍遷

03-18

吉利極氪8X首發(fā)超級Eva，階躍星辰“最強大腦”開啟智能出行新體驗

03-18

簡知科技九年探索：全齡覆蓋、技術賦能，讓終身學習融入生活每刻

03-18

東風汽車“東風太極大模型”成功備案開啟全場景智能協(xié)同新篇章

03-18

別克至境世家純電版上市，以超快充等優(yōu)勢領航豪華新能源MPV市場

03-18

小牛電動NXT2系列來襲！汽車級感知+AI大模型，智能騎行新體驗

03-18

點擊查看更多 +

全站最新

風雅西北湖春日啟幕！櫻花與藝術交融，江漢免費活動邀你共赴浪漫之約

理想汽車2025年業(yè)績承壓，2026年以三大支柱謀20%銷量增長新局

國產(chǎn)新能源實力出圈！福特拆解比亞迪皮卡，直呼成本利潤難理解

中汽中心新能源檢驗中心二期開工天津新能源汽車產(chǎn)業(yè)再添新動力

中車哈爾濱車輛公司數(shù)智化改造升級產(chǎn)能躍升邁向行業(yè)新高度

理想增程器開發(fā)邏輯大不同：NVH居首重塑用戶核心需求新架構

熱門內容

本欄最新

理想汽車2025年業(yè)績承壓，2026年以三大支柱謀20%銷量增長新局

技術為翼，生態(tài)為基：探路如何以復用技術構建全場景出行新未來？

長安汽車2026年定下330萬輛銷量目標 2028年將實現(xiàn)人形機器人量產(chǎn)

看不見的豪華：5000萬歐元筑牢安全防線，奔馳詮釋電車匠心底色

華為乾崑與廣汽攜手推出啟境品牌首款中大型獵裝車GT7預計6月上市

別克至境世家純電版上市！900V 6C超快充，續(xù)航601km，售價48.99萬元

本網(wǎng)站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區(qū) 魯ICP備11015305號-1 聯(lián)系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

GPT-5.4雙子星突襲：輕量級模型性能逼近滿血版，AI應用加速普及