訓(xùn)練數(shù)據(jù)公司Mercor近日發(fā)布的一份研究報(bào)告顯示,當(dāng)前主流人工智能模型在應(yīng)對(duì)真實(shí)辦公室任務(wù)時(shí)表現(xiàn)欠佳,最高準(zhǔn)確率未能突破25%。這一結(jié)果引發(fā)了業(yè)界對(duì)AI能否快速替代人類知識(shí)工作者的討論,研究指出,短期內(nèi)AI尚難以勝任復(fù)雜的知識(shí)型工作。
測(cè)試結(jié)果顯示,即便是市場(chǎng)領(lǐng)先的人工智能模型也難以達(dá)到理想水平。成績(jī)最優(yōu)的Gemini 3 Flash準(zhǔn)確率僅為24%,緊隨其后的GPT-5.2準(zhǔn)確率為23%,其余大多數(shù)模型的準(zhǔn)確率均未超過20%。其中,Grok 4的準(zhǔn)確率為15.2%,GPT-OSS-120B和Kimi K2 Thinking的準(zhǔn)確率更是低至4.7%和4.0%。
Mercor首席執(zhí)行官Brendan Foody分析稱,AI在此次測(cè)試中表現(xiàn)不佳的主要原因是缺乏上下文處理能力。在真實(shí)辦公場(chǎng)景中,任務(wù)往往需要跨多個(gè)信息源進(jìn)行搜索和整理,而AI在整合分散資源時(shí)容易混淆或出錯(cuò),甚至直接放棄任務(wù)。這種局限性使得當(dāng)前的AI更像是一個(gè)“不可靠的實(shí)習(xí)生”,而非能夠獨(dú)立處理復(fù)雜工作的專業(yè)人員。
盡管如此,AI的進(jìn)步速度仍值得關(guān)注。Foody提到,一年前同類測(cè)試的準(zhǔn)確率僅為5%-10%,如今已提升至24%,遠(yuǎn)超預(yù)期。不過,研究也強(qiáng)調(diào),在掌握多任務(wù)處理和上下文切換能力之前,AI仍無(wú)法勝任需要高度整合和判斷的知識(shí)型工作。
以下是APEX-Agents基準(zhǔn)測(cè)試中各模型的準(zhǔn)確率排名(從高到低):Gemini 3 Flash (24.0%)、GPT-5.2 (23.0%)、Claude Opus 4.5 (18.4%)、Gemini 3 Pro (18.4%)、GPT-5 (18.3%)、Grok 4 (15.2%)、GPT-OSS-120B (4.7%)、Kimi K2 Thinking (4.0%)。











