滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

GPT-5.2考贏人類！OpenAI警告：大模型能力已過剩

時間：2026-01-11 09:18:13 來源：新智元編輯：快訊 IP：北京 發表評論無障礙通道

新智元報道

編輯：元宇

如同智能手機一樣，大模型也進入了一個「能力過剩」時代，即大模型本身的能力與人類使用方式之間存在著巨大斷層。

剛剛，GPT-5.2刷新了一項新紀錄！

OpenAI聯合創始人Greg Brockman發帖稱使用GPT-5.2在ARC-AGI-2基準測試上，表現超過了人類基線水平。

在基準測試時技能爆表，但一到實際應用就「掉鏈子」，OpenAI前首席科學家Ilya Sutskever提到的這種大模型「性能悖論」我們并不陌生。

這也是AGI評估領域一個長期存在的難題——如何區分大模型「真正的推理能力」與「刷題型能力」。

而ARC-AGI-2的出現正好打破了這一難題。

ARC-AGI-2的全稱為「Abstraction and Reasoning Corpus for Artificial General Intelligence-Version 2」，是ARC系列基準的最新升級版本。

該基準由François Chollet（Keras之父、前Google Brain研究員）及其團隊在2025年推出，其設計初衷十分明確：

測試AI是否具備AGI所必需的抽象、歸納與遷移推理能力，而非記憶或統計模式匹配。

ARC系列與傳統NLP或多模態benchmark最大的不同在于：它沒有大規模訓練集，每道題目都是從未見過的新任務，因此不存在通過「刷數據」獲得高分的可能。

它要求AI像人類一樣具備真正的推理和舉一反三的能力。

Chollet曾多次公開表示，如果一個系統只能在見過的數據分布上表現良好，那它并不具備AGI所需的能力。

因此，ARC基準測試剛好直擊大模型的「軟肋」。

從「及格」到「優等生」

一次關鍵跨越

新紀錄的刷新者，并非單一模型，而是一個名為Poetiq（GPT-5.2X-High）的系統。

Poetiq是一家專注于元系統（meta-System）架構的AI公司。

其核心理念并不是訓練一個更大的模型，而是通過軟件層面的系統設計，自動構建「會調用模型的系統」。

Poetiq（GPT-5.2X-High）在ARC-AGI-2數據集上實現了75%準確率，每問題成本不到8美元，超越前SOTA 15個百分點。

在Poetiq（GPT-5.2X-High）系統出現之前，GPT-5.2(X-High)已經非常接近人類平均水平。

ARC-AGI-2榜單中，人類平均準確率約為60%，GPT-5.2X-High的成績與之幾乎持平，代表了當時AI在該基準上的最強推理能力。

但Poetiq的加入，使GPT-5.2(X-High)的得分從60%直接拉升到了75%，從勉強及格（人類平均水平）邁入了優等生的行列（顯著超越人類平均水平）。

在同一榜單上，還能看到Gemini 3 Deep Think（Preview）的身影。

該模型主打「深度思考（Deep Think）」技術，在ARC-AGI-2上的成績約為46%，明顯落后于GPT-5.2系列，并且成本相對后者也略高。

Poetiq表示，整個過程沒有對GPT-5.2進行任何訓練或者特定優化。

這正是Poetiq元系統的初衷，旨在自動構建完整的系統，通過調用任何現有的前沿模型來解決特定任務。

從15%的提升數據來看，Poetiq對于基礎模型性能的提升幅度還是非常明顯的。

它的存在證明了不需要堆算力，通過優秀的軟件架構也能大幅提升AI性能。

從這個角度上，它也驗證了接下來OpenAI的一個判斷——

當前大模型，正逐漸進入「能力過剩」階段。

大模型「能力過剩」時代

就在同一天，OpenAI官方也在X平臺發布了一項關于2026年的預測。

在這條推文中，OpenAI明確提到一個關鍵詞：Capability Overhang（能力過剩）。

核心意思是：

當前模型「能夠做到的事情」，與人們「實際使用AI的方式」（產生效果）之間，存在巨大的斷層。

OpenAI認為，未來AGI的進展將不再僅取決于模型本身的突破，還將取決于：

人們是否知道如何有效使用AI

AI是否真正融入現實工作與生活

系統是否能將模型能力轉化為實際價值

因此，在2026年，OpenAI將繼續前沿研究，同時重點投入于應用層、系統層、人機協同，尤其強調醫療、商業和日常生活場景。

人機協同

AGI的另一半拼圖

OpenAI這篇官方推文涉及一個人機協同的問題。

實現AGI，是需要模型和人協同發揮作用：AGI不只靠模型升級，更要「教人用AI」。

通過正確的使用AI，充分發揮出AI的潛能，這樣才能讓AI開始從「炫技」轉向「普惠」，真正影響億萬人生活。

這一觀點也得到了社區的強烈回應。

于是，樂觀的網友稱「直接把我整個人自動化吧」！

也有網友提到，真正的挑戰在于如何將AI融入工作流程中：見過太多組織買了「AI」，卻從未改變任何一個流程。

大模型真的「能力過剩」了嗎？

那么，是不是真如OpenAI所說的，大模型的能力已經過剩了呢？

通過上面Poetiq所公布的Poetiq（GPT-5.2X-High）在ARC-AGI-2上的表現，75%的得分超過了人類平均水平（60%）15個百分點。

此前OpenAI官方在介紹GPT-5時強調其在解決復雜跨學科問題上達到了專家級基準，后被外界引申為「博士級智能」。

這說明GPT-5等大模型在某些專業任務中表現類似于人類博士的專業水平。

從模型本身來說，也許并未完全過剩，但從「未被充分釋放的能力」角度來看，已經嚴重過剩。

其中，有模型設計者方的原因，比如他們沒有緊跟用戶的使用場景，「不再與用戶并肩同行了」。

也可能由于前沿模型在推理和創新上缺乏根本性的突破。

還有模型本身迭代得太快，用戶不得不在日常生活中不斷棄用已經「成功上手」的模型。

Poetiq 的出現，以及OpenAI對「能力過剩」的判斷，共同指向了未來AI領域的一個新方向：

下一階段的AI競爭，不再只是模型參數之爭，而是系統、流程與人機協同的競爭。

更多>同類資訊

蘋果新款MacBook將至：A18 Pro芯片加持低價市場或迎新寵

02-16

除夕夜阿里將開源Qwen3.5大模型港股AI應用股走勢分化

02-16

AI春晚：當硅基智慧邂逅碳基幽默，一場科技與年味的創意狂歡

02-16

Seedance 2.0上線即火出圈抖音集團副總裁：春晚將深度應用該模型

02-16

字節跳動豆包大模型邁入2.0時代，多場景適配且Seedance 2.0接入引關注

這次的豆包2.0包括Pro、Lite、Mini三款通用Agent模型和Code模型，靈活適配各類業務場景。具體來看，豆包 2.0 全面升級了多模態能力，在各類視覺理解任務上均達到世界頂尖水平，視覺推理、感…

02-16

OpenAI戰略布局再升級：OpenClaw創始人Peter Steinberger加入引領個人AI智能體新方向

Peter Steinberger是一位來自奧地利的獨立開發者，此前以個人力量開發并維護OpenClaw。 Steinberger在其個人網站上發文解釋加入OpenAI的決定：“加入OpenAI能讓我專注于…

02-16

豆包AI大版本升級來襲：從圖像到視頻春節前夕掀起AI技術新浪潮

在該模型出現后，我們終于可以肯定地說，視頻生成 AI 已經走到了生產力的門檻上。這是一款語音理解和生成一體化的模型，實現了端到端語音對話，在語音表現力、控制力、情緒承接方面表現驚艷，并具備低時延、對話中可隨…

02-16

硅谷AI“搶人大戰”升級！OpenClaw創始人投身OpenAI 欲打造全民可用智能體

硅谷AI“搶人戰事”升級，在扎克伯格與Altman的親自下場爭奪中，爆火智能體OpenClaw創始人最終倒向OpenAI，意在攻克AI從“好玩”到“好用”的最后壁壘。OpenAI CEO Sam Altma…

02-16

字節跳動豆包大模型2.0來襲，多款模型適配多樣場景，Seedance 2.0同步接入

這次的豆包2.0包括Pro、Lite、Mini三款通用Agent模型和Code模型，靈活適配各類業務場景。具體來看，豆包 2.0 全面升級了多模態能力，在各類視覺理解任務上均達到世界頂尖水平，視覺推理、感…

02-16

OpenAI迎新強援！OpenClaw創始人Peter Steinberger加入專注個人AI智能體研發

Peter Steinberger是一位來自奧地利的獨立開發者，此前以個人力量開發并維護OpenClaw。 Steinberger在其個人網站上發文解釋加入OpenAI的決定：“加入OpenAI能讓我專注于…

02-16

iOS 27聚焦底層優化：續航大提升，全新Siri攜谷歌模型亮相

這一代系統在視覺設計上并不會大動干戈，但它在底層的優化力度可能是近年來最顯著的一次。在人工智能領域，iOS 27同樣有重頭戲，全新的Siri聊天機器人將正式亮相，其底層接入了谷歌的Gemini模型。據稱，該…

02-16

字節跳動豆包2.0大模型來襲，多款模型適配多樣場景，Seedance 2.0同步接入

這次的豆包2.0包括Pro、Lite、Mini三款通用Agent模型和Code模型，靈活適配各類業務場景。具體來看，豆包 2.0 全面升級了多模態能力，在各類視覺理解任務上均達到世界頂尖水平，視覺推理、感…

02-16

蘋果iOS 27系統大革新：代碼優化助力續航躍升，AI新Siri強勢登場

這一代系統在視覺設計上并不會大動干戈，但它在底層的優化力度可能是近年來最顯著的一次。在人工智能領域，iOS 27同樣有重頭戲，全新的Siri聊天機器人將正式亮相，其底層接入了谷歌的Gemini模型。據稱，該…

02-16

華為手機去水印不再愁！5款免費工具實測，簡單教程輕松掌握

今天我就用我的華為手機，帶你們實測5款真正免費、好用的去水印工具，全程不用電腦、不裝APP，看完這篇你絕對能學會！ - 隱私安全：選擇像小青去水印、坤坤去水印這種有安全認證的工具，避免使用來路不明的工具，防止…

02-16

OpenClaw創始人轉投OpenAI，聚焦下一代個人助手智能體研發新征程

02-16

點擊查看更多 +

全站最新

現貨黃金跌破5000美元

今年春節返鄉，理想純電與比亞迪插混車主樂無憂，續航無慮又省錢

嵐圖攬雙獎！嵐海智能超混領航，泰山登頂，上市進程再提速

BMW ALPINA發布新標識：棄用“藍天白云” 融入機械元素彰顯高級感

2026科技產品選購指南：AI浪潮下新能源車手機電視筆記本怎么選

寶馬M的“開山之作”：3.0 CSL如何以傳奇之姿鑄就品牌輝煌？

熱門內容

本欄最新

2026科技產品選購指南：AI浪潮下新能源車手機電視筆記本怎么選

抖音高管談Seedance 2.0：真人認證防侵權，團隊全力維護創作生態

2026年貨消費新景象：流動年貨勾勒團圓新圖景，地方特產成熱門之選

2026年夜飯新趨勢：健康融合成主流消費選擇更多元平衡有智慧

硬派越野SUV全解析：從經典傳奇到未來科技，帶你征服每一寸未知土地

硬派越野SUV大變身：告別顛簸與嘈雜，長途旅行也能享受極致舒適

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

GPT-5.2考贏人類！OpenAI警告：大模型能力已過剩