過去兩年,AI 敘事的坐標系近乎失準。
MMLU、Humaneval 這類靜態指標像高考榜單一樣被反復張貼,不斷刷新的數字仿佛宣告通用人工智能已抵近終點線。
然而,一種名為APEX?Agents的新基準戳破了這層幻象。
它揭示的并非模型智商的線性進步,而是一個殘酷的悖論:當 AI 試圖從“回答問題”跨越到“完成工作”時,能力的提升正陷入嚴重的數據饑渴。
從LLM(語言大模型)到Agent的轉向,不是版本的升級,而是一次從靜態智力到動態生產力的范式轉移。其跨越難度,被整個行業嚴重低估。
01
評測權杖的交接
在過去的三年中,LLM一直是AI的主要形態。
那時,人們評測模型的重心在于“智商”,也就是模型能夠掌握多少靜態知識、能否正確進行邏輯推導。
但隨著AI的形態在不到半年間從LLM全面過渡到Agent,評測的權杖也必須發生交接。
Agent的核心本質就在于它必須與數字環境甚至真實物理環境進行高頻的感知和交互。
APEX-Agents基準測試選擇徹底摒棄了以往“一問一答”式的數學和編程考卷,取而代之的則是33個數據豐富的模擬世界(Worlds)。
每個世界都代表一個獨特的項目場景,其中平均包含166個文件并涉及9個以上的應用程序工具。
對于模型來說,這與大語言模型“紙上談兵”的交互方式截然不同。
它被投放在一個數字沙盒之中,但這次要面對的不是各種復雜的數學題和編程題,而是要像人類員工一樣在長達數小時的任務鏈條中觀察環境變化、拆解復雜指令、調用各種工具并交付最終成果。
智能體時代初期的代碼執行、PDF解析、電子表格標簽操作等目標,也變成了微小但容錯率極低的中間環節。
這種評價標準的轉變,反映出了AGI門檻的實質性變化:
它關心的不是模型知道什么,而是在復雜的環境下能做成什么。
為了模擬真實職場給人類帶來的“重力感”,APEX還下血本邀請了來自麥肯錫、高盛、思科等企業共256位擁有平均12.9年行業經驗的頂級專家。
這些專家不僅要基于專業知識給模型提出任務,還要給出明確的“過程準則(Rubrics)”,讓評測從一場智力游戲徹底蛻變成生產力的挑戰。
02
被無情揭開的性能“遮羞布”
面對APEX-Agents的Pass@1(一次通過率)排行榜結果,任何出于商業化目的鼓吹“AGI即將實現”的說法都不攻自破。
數據展現出了令人冷靜的低迷,而這種低準確率和高跑分結果形成了鮮明的對比,直接戳破了AGI的泡沫。
這項基準測試的場景主要用于評估三個職位:企業律師、管理顧問和投資銀行分析師。
報告顯示,全球AI三巨頭之一的Google旗下的Gemini 3 Flash在開啟高度思考模式下,也只得到了24%的分數。
同為三巨頭之一的GPT-5.2(High)也沒好到哪里去,以23%的分數位居第二。
具體到細分的職業場景中,分數也都不太理想,再先進的模型也難以突破30%的門檻。
在這個情況下,討論哪個模型能力更強已經意義不大。
關鍵的問題在于,為什么以前使用體驗很好的LLM在實際任務中表現得如此差勁?
APEX報告指出了幾個關鍵的失敗模式,而這正是大模型無法轉變為生產力工具的最大限制:
死循環(Doom Looping):模型在遇到工具調用失敗時,無法進行有效的反思,而是反復嘗試同樣的錯誤指令,直到消耗完預設的步數限制。因此,現階段的Agent仍然缺乏認知能力。
流氓行為(Rogue Behavior):GPT-5.2在測試中曾經犯下大錯,意外刪除了21個關鍵的生產文件。對于嚴謹的金融和法律領域,這種誤操作必然招致災難性的后果。
長時程規劃迷失:當任務步驟超過了限制,模型的“意圖漂移(Intent Drift)”現象極為嚴重這也是Vibe Coding中最常見的情況,模型在任務執行到一半時早已忘記了初始目標。
若將嘗試次數放寬至8次(Pass@8),頂尖模型的得分能夠接近40%,但衡量穩定性的指標卻降到了最低6.5%,這就是當前智能體的典型特征:具備潛力,但極不穩定。
換句話說,智能體能夠產出碎片化的有效信息,但難以完成閉環交付。
這些數據也揭示了一個被刻意掩蓋的真相:
現階段的智能體最多只能算是AGI的最初級形態。
那些鼓吹AGI進度已經完成大半的說法,完全是基于靜態智商測試的商業包裝。
傳統LLM的性能瓶頸主要在于算力和參數量,而Agent時代的門檻已經轉移到任務編排、狀態管理、錯誤恢復和長程規劃。
智能體連“可用”和“可靠”之間的鴻溝都無法跨越,更不要提“好用”,在復雜的工作流面前,AI依然顯得十分稚嫩。
03
成本的陷阱
在現有的Agent測評中,準確率順理成章地成為了唯一的主角,但對商業落地具有決定性影響的token消耗成本往往無人提及。
眾所周知,Agent相比于LLM,消耗的token成本完全不在一個量級。
APEX報告提供的數據讓這種差距更加具象化:
以24%的Pass@1分數領跑的Google最新模型Gemini 3 Flash單次任務平均消耗的token達到了531.5萬,大約是GPT-5.2的5倍、Gemini 3 Pro的8倍。
然而,性能優勢的差距只有1%。
這個數字已經足以讓所有開發者在做出決策前冷靜下來。
如果按照目前閉源模型的價格核算,完成一個復雜的投行任務,算力成本必然高達幾十美金。
即便不考慮模型部署的固定成本,AI的運行成本也已經逼近甚至超過了初級人類分析師的時薪。
目前智能體展現出來的較低水平的準確率,本質上也是建立在不計成本的暴力推理之上而實現的。
模型可以通過海量的思維鏈(CoT)和反復重試來換取成功率,但在商業情境下,這兩種方式都不可能無限制使用。
因此,這種“高消耗+低增益”的邊際遞減效應直接指向了一個產業級的命題:
在智能體時代,性價比必須與準確率同等重要,甚至更具決定性。
未來的Agent基準測試,必須引入基于token的投資回報率。
如果Agent無法實現低功耗、高精度的閉環,它就永遠無法成為社會期待的通用基礎設施。
04
生態分化與商業格局
APEX報告中另一個值得關注的現象在于開源模型在這場基準測試中的全面潰敗。
在LLM時代,開源模型憑借著參數量的擴張和高質量語料庫的預訓練,在多項靜態基準中已經屢屢逼近甚至反超AI巨頭的上一代旗艦模型。
但進入Agent時代以后,“開源平權”的敘事已經接近失效。
盡管全球范圍內的頂尖模型也做不到“可靠”,但閉源模型還是對開源模型形成了降維打擊,像GPT-OSS-120B和Kimi K2的得分甚至低于5%。
但事實證明,面對長時程規劃、嚴格指令遵循和工具調用的實戰任務時,這些開源模型仍然處于不可用的狀態。
當然,把這種落差單純歸因于基礎模型推理能力不足并不客觀,智能體能力的系統復合性也極為重要。
一個能穩定執行長周期任務的Agent不僅需要底層模型具備強大的語言理解能力,還需要把軌跡優化、狀態一致性等LLM時代容易被忽視的細節做得更完美。
閉環數據、大規模算力調度、端到端的技術棧,這些都是閉源廠商在智能體時代的商業命脈。
但開源模型目前仍然停留在初期階段,缺少高質量的行為對齊數據。
掌控了智能體的“辦事邏輯”和執行軌跡,就等同于建立起一道堅固的數據壁壘。
因此,LLM時代AI邏輯被顛覆的同時,我們也可以清晰地看到眼前的事實和未來的趨勢:
那些真正能放在智能體中“辦事”的模型,幾乎都不是免費的。
05
存量數據正成為重大挑戰
無論是LLM的時代,還是Agent的時代,AI的三要素始終沒有變化:算法、算力和數據。
在上一篇文章中算力經濟學的邏輯,在Agent時代徹底改寫了,我們已經說過算力緊缺是客觀存在且短期內不可改變的事實。
但智能體取代LLM成為新時代的AI形態的同時,一個根本性的挑戰也已經擺在所有人的面前:
Agent能力的提升已經陷入嚴重的數據饑渴。
字節跳動震驚全球的Seedance 2.0成功案例已經證明,在TikTok的加持下,憑借海量真實的視覺數據,即便算力相比Google和OpenAI處于劣勢,但仍然能超越Veo和Sora實現多模態領域的突破。
但這一套成功的邏輯并不能直接套用到智能體上,因為文本、圖像、音頻和視頻都是現實世界中在AI出現之前就已經存在的“非結構化”存量。
Agent執行任務的邏輯與多模態模型不同,它是一套“人如何使用工具完成任務”的隱形邏輯。
顯然,這種邏輯在AI出現之前不可能被大規模數字化記錄。
人類如何打開Excel、如何根據報錯修改公式、如何在郵件中確認需求,這些日常生活中最常見的情景,對于AI來說極其復雜而且難以抽象。
互聯網上存在海量的高質量文本數據,卻幾乎沒有高質量的“任務執行軌跡”。
事實上,黃仁勛在2024年的預言就精確命中了這個痛點:單純依賴現有的數據堆砌無法支撐下一代AI的演進。
和具身智能一樣,想要解決現階段智能體的瓶頸,必須構建高保真的虛擬世界環境,并通過合成數據(Synthetic Data)技術生成高質量的訓練樣本。
APEX基準測試中構建的Archipelago基礎設施,實際上就是為了智能體專門提供的加速迭代試驗場。
在這些虛擬環境中,Agent可以經歷數百萬次失敗和修正,模擬真實職場中難以復現的極端場景。
未來的AGI門檻,將不再是誰閱讀過的互聯網文本更多,而是誰在仿真環境里見過的行動軌跡更豐富。
智能體訓練的本質仍是強化學習,而在沒有充足的“學習資料”的當下,結果只能是嚴重的欠擬合。
APEX基準測試不僅是一個技術指標,還是一次對行業認知的重塑。
人們應該看清,我們距離真正的AI生產力革命還有多遠。





