岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear旗下自媒體矩陣:

新測試表明AI實際辦公準確率不足25%,但進展比想象更快

   時間:2026-01-26 16:24:43 來源:IT之家編輯:快訊 IP:北京 發表評論無障礙通道
 

1 月 26 日消息,Digital Trends 24 日報道,一項由訓練數據公司 Mercor 發布的研究報告指出,當前主流人工智能模型在處理實際辦公室任務時表現不佳,最高準確率未超過 25%,研究表明 AI 在短期內難以替代人類知識工作者。

結果顯示,即使是市場上明顯處于領先地位的模型也無法達到 25% 的準確率,測試中成績領先的 Gemini 3 Flash 和 GPT-5.2,其準確率也僅為 24% 和 23%,而其他大多數受試模型的成績則不高于 20%。

為何 AI 會在“辦公測試”中失敗?Mercor 首席執行官 Brendan Foody 分析稱,AI 失敗的關鍵在于缺乏上下文處理能力。在真實辦公場景中,任務往往需要整合分散資源,比如查看日程,翻閱即時通訊記錄、閱讀 PDF 文檔和電子表格,而 AI 在跨源信息搜索與整理時容易混淆、出錯,要么干脆放棄。這導致目前的 AI 在辦公室里更像一個“不可靠的實習生”,而非成熟的專業人員。

附 APEX-Agents 準確率測試結果如下(排名從高到低):

Gemini 3 Flash (High) - 24.0%

GPT-5.2 (High) - 23.0%

Claude Opus 4.5 (High) - 18.4%

Gemini 3 Pro (High) - 18.4%

GPT-5 (High) - 18.3%

Grok 4 - 15.2%

GPT-OSS-120B (High) - 4.7%

Kimi K2 Thinking - 4.0%

盡管表現有限,但 AI 的進步引人關注。Foody 指出,一年前同類測試的準確率僅為 5%-10%,如今已提升至 24%,AI 的學習速度遠超預期。不過,研究也強調,在掌握多任務處理和上下文切換之前,AI 尚無法勝任復雜的知識工作。

 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 日韩欧美中文字幕在线播放 | 播播激情网 | 国产成年人在线观看 | 青青青视频在线播放 | 久久国产一区 | 日韩在线免费观看视频 | 精品一区二区三区日韩 | 天天干天天操天天爱 | 日韩欧美在线免费 | 成人国产在线视频 | 亚州av网 | 日韩精品一区二区三区四区五区 | 国产在线播放91 | 国产国语对白 | 久久在线观看 | 国产精品久久久久久亚洲影视 | 亚洲视频欧洲视频 | 午夜影院视频 | 天天色天天色天天色 | 伊人再见免费在线观看高清版 | 成人公开免费视频 | 亚洲永久av | 国产黄毛片 | 成人午夜激情视频 | 九九九在线 | 欧美日韩中文字幕在线视频 | 一区二区三区日韩视频 | 三级视频欧美 | 热久久最新 | 一区精品视频 | 精品福利一区二区三区 | 在线免费观看毛片 | www.黄色com| 日本免费黄色 | 久久久看片 | 精品视频999 | 日韩久久久久久久久久 | 中文字幕在线观看不卡 | 欧美成人午夜免费视在线看片 | 秋霞中文字幕 | 国产精品av久久久久久无 |