1 月 26 日消息,Digital Trends 24 日報道,一項由訓練數據公司 Mercor 發布的研究報告指出,當前主流人工智能模型在處理實際辦公室任務時表現不佳,最高準確率未超過 25%,研究表明 AI 在短期內難以替代人類知識工作者。
結果顯示,即使是市場上明顯處于領先地位的模型也無法達到 25% 的準確率,測試中成績領先的 Gemini 3 Flash 和 GPT-5.2,其準確率也僅為 24% 和 23%,而其他大多數受試模型的成績則不高于 20%。
為何 AI 會在“辦公測試”中失敗?Mercor 首席執行官 Brendan Foody 分析稱,AI 失敗的關鍵在于缺乏上下文處理能力。在真實辦公場景中,任務往往需要整合分散資源,比如查看日程,翻閱即時通訊記錄、閱讀 PDF 文檔和電子表格,而 AI 在跨源信息搜索與整理時容易混淆、出錯,要么干脆放棄。這導致目前的 AI 在辦公室里更像一個“不可靠的實習生”,而非成熟的專業人員。
附 APEX-Agents 準確率測試結果如下(排名從高到低):
Gemini 3 Flash (High) - 24.0%
GPT-5.2 (High) - 23.0%
Claude Opus 4.5 (High) - 18.4%
Gemini 3 Pro (High) - 18.4%
GPT-5 (High) - 18.3%
Grok 4 - 15.2%
GPT-OSS-120B (High) - 4.7%
Kimi K2 Thinking - 4.0%
盡管表現有限,但 AI 的進步引人關注。Foody 指出,一年前同類測試的準確率僅為 5%-10%,如今已提升至 24%,AI 的學習速度遠超預期。不過,研究也強調,在掌握多任務處理和上下文切換之前,AI 尚無法勝任復雜的知識工作。










