滾動(dòng)資訊

當(dāng)前位置：首頁(yè) > 資訊 > 人工智能 > 正文內(nèi)容

AI辦公測(cè)試準(zhǔn)確率未超25% 進(jìn)步顯著但勝任復(fù)雜工作仍需時(shí)日

時(shí)間：2026-01-26 14:44:38 來(lái)源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評(píng)論無(wú)障礙通道

訓(xùn)練數(shù)據(jù)公司Mercor近日發(fā)布的一份研究報(bào)告顯示，當(dāng)前主流人工智能模型在應(yīng)對(duì)真實(shí)辦公室任務(wù)時(shí)表現(xiàn)欠佳，最高準(zhǔn)確率未能突破25%。這一結(jié)果引發(fā)了業(yè)界對(duì)AI能否快速替代人類知識(shí)工作者的討論，研究指出，短期內(nèi)AI尚難以勝任復(fù)雜的知識(shí)型工作。

測(cè)試結(jié)果顯示，即便是市場(chǎng)領(lǐng)先的人工智能模型也難以達(dá)到理想水平。成績(jī)最優(yōu)的Gemini 3 Flash準(zhǔn)確率僅為24%，緊隨其后的GPT-5.2準(zhǔn)確率為23%，其余大多數(shù)模型的準(zhǔn)確率均未超過20%。其中，Grok 4的準(zhǔn)確率為15.2%，GPT-OSS-120B和Kimi K2 Thinking的準(zhǔn)確率更是低至4.7%和4.0%。

Mercor首席執(zhí)行官Brendan Foody分析稱，AI在此次測(cè)試中表現(xiàn)不佳的主要原因是缺乏上下文處理能力。在真實(shí)辦公場(chǎng)景中，任務(wù)往往需要跨多個(gè)信息源進(jìn)行搜索和整理，而AI在整合分散資源時(shí)容易混淆或出錯(cuò)，甚至直接放棄任務(wù)。這種局限性使得當(dāng)前的AI更像是一個(gè)“不可靠的實(shí)習(xí)生”，而非能夠獨(dú)立處理復(fù)雜工作的專業(yè)人員。

盡管如此，AI的進(jìn)步速度仍值得關(guān)注。Foody提到，一年前同類測(cè)試的準(zhǔn)確率僅為5%-10%，如今已提升至24%，遠(yuǎn)超預(yù)期。不過，研究也強(qiáng)調(diào)，在掌握多任務(wù)處理和上下文切換能力之前，AI仍無(wú)法勝任需要高度整合和判斷的知識(shí)型工作。

以下是APEX-Agents基準(zhǔn)測(cè)試中各模型的準(zhǔn)確率排名（從高到低）：Gemini 3 Flash (24.0%)、GPT-5.2 (23.0%)、Claude Opus 4.5 (18.4%)、Gemini 3 Pro (18.4%)、GPT-5 (18.3%)、Grok 4 (15.2%)、GPT-OSS-120B (4.7%)、Kimi K2 Thinking (4.0%)。

01-26

筑牢算法治理基石推動(dòng)AIGC在規(guī)范軌道上蓬勃發(fā)展

01-26

筑牢AI知識(shí)產(chǎn)權(quán)保護(hù)基石為數(shù)字中國(guó)創(chuàng)新發(fā)展注入強(qiáng)勁動(dòng)能

01-26

上海交大Optics GPT問世：國(guó)產(chǎn)自研光學(xué)大模型，開啟垂直領(lǐng)域新篇章

01-26

編程新時(shí)代來(lái)臨？OpenAI研究員自曝：Codex全權(quán)接管代碼編寫工作

01-26

上海交大發(fā)布全自研Optics GPT大模型推動(dòng)光學(xué)領(lǐng)域智能化新跨越

01-26

仿生多模態(tài)觸覺傳感器SuperTac問世機(jī)器人觸覺感知能力實(shí)現(xiàn)質(zhì)的飛躍

01-26

黃仁勛2026年訪華行程忙：上海逛菜市場(chǎng)年會(huì)后，又現(xiàn)身北京吃云南菜

01-26

本地運(yùn)行、自我進(jìn)化、替代傳統(tǒng)服務(wù)：Clawdbot開啟AI助理個(gè)性化新紀(jì)元

01-26

嘉實(shí)31只ETF更名“導(dǎo)航”財(cái)富路，普通投資者迎來(lái)投資新體驗(yàn)

01-26

千問AI訂餐電話太逼真！擬人化互動(dòng)還送祝福，AI對(duì)AI成新趣談

01-26

三星擬下月量產(chǎn)HBM4芯片欲借英偉達(dá)訂單縮小與SK海力士差距

01-26

2025年我國(guó)人形機(jī)器人加速“進(jìn)家庭入工廠”，技術(shù)創(chuàng)新生態(tài)建設(shè)齊頭并進(jìn)

IT之家從新聞發(fā)布會(huì)獲悉，張?jiān)泼鞅硎荆骸拔覀兒葑ァ矊?shí)力’，筑牢技術(shù)根基。張?jiān)泼鹘榻B說(shuō)，未來(lái)將持續(xù)推動(dòng)人形機(jī)器人技術(shù)創(chuàng)新和迭代升級(jí)，以人形機(jī)器人為小切口帶動(dòng)具身智能大產(chǎn)業(yè)發(fā)展。加速“壯生態(tài)”，強(qiáng)化國(guó)家人工…

01-26

蘋果被曝2027年推AI胸針設(shè)備：雙攝三麥設(shè)計(jì)，能否突破技術(shù)瓶頸成焦點(diǎn)

IT之家 1 月 22 日消息，科技媒體 The Information 今天（1 月 22 日）發(fā)布博文，報(bào)道稱蘋果正在研發(fā)一款尺寸類似AirTag 的“AI 佩戴式胸針”，計(jì)劃最早于 2027 年發(fā)布。…

01-26

ChatGPT臨時(shí)聊天模式大升級(jí)：隱私對(duì)話與個(gè)性化偏好“兼得”

01-26

點(diǎn)擊查看更多 +

全站最新

港股異動(dòng)丨金銀價(jià)不斷新高，“礦山”概念股比優(yōu)集團(tuán)飆升近24%創(chuàng)新高

范式智能發(fā)布Phanthy Cloud 以"智能即服務(wù)"重塑企業(yè)AI底座

現(xiàn)貨黃金一度突破5090美元，黃金股票ETF基金、黃金股ETF工銀漲超7%，黃金股票ETF、黃金股ETF漲超6.6%

IXDC2025現(xiàn)場(chǎng)：施凱文揭秘飛書多維表格如何借AI突破代際，重塑辦公生態(tài)

熔巖橙選裝率僅8%！雷軍忍痛下架，小米汽車轉(zhuǎn)向分層滿足個(gè)性需求

熱門內(nèi)容

本欄最新

云知聲“山海·知音”2.0發(fā)布：聽懂鄉(xiāng)音、聊出溫度，AI交互再進(jìn)化

印奇履新階躍星辰董事長(zhǎng)，攜手團(tuán)隊(duì)推進(jìn)“AI+終端”戰(zhàn)略落地

比亞迪兌現(xiàn)承諾！10萬(wàn)級(jí)車型實(shí)現(xiàn)城市記憶領(lǐng)航，智能駕駛再進(jìn)階

每87秒下線一臺(tái)車身東風(fēng)商用車D600智慧工廠開啟全球最大中重型商用車智造新篇

1月收官新機(jī)來(lái)襲：旗艦芯+大電池+直屏設(shè)計(jì)，1月底重磅登場(chǎng)

長(zhǎng)安汽車牽手美的集團(tuán)，長(zhǎng)安啟源Q05“車控家”開啟智慧生活新體驗(yàn)

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無(wú)障礙技術(shù)由太陽(yáng)灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國(guó)（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號(hào)-1 聯(lián)系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

AI辦公測(cè)試準(zhǔn)確率未超25% 進(jìn)步顯著但勝任復(fù)雜工作仍需時(shí)日