岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear旗下自媒體矩陣:

GPT-5.2考贏人類!OpenAI警告:大模型能力已過剩

   時間:2026-01-11 09:18:13 來源:新智元編輯:快訊 IP:北京 發表評論無障礙通道
 

新智元報道

編輯:元宇

如同智能手機一樣,大模型也進入了一個「能力過剩」時代,即大模型本身的能力與人類使用方式之間存在著巨大斷層。

剛剛,GPT-5.2刷新了一項新紀錄!

OpenAI聯合創始人Greg Brockman發帖稱使用GPT-5.2在ARC-AGI-2基準測試上,表現超過了人類基線水平。

在基準測試時技能爆表,但一到實際應用就「掉鏈子」,OpenAI前首席科學家Ilya Sutskever提到的這種大模型「性能悖論」我們并不陌生。

這也是AGI評估領域一個長期存在的難題——如何區分大模型「真正的推理能力」與「刷題型能力」。

而ARC-AGI-2的出現正好打破了這一難題。

ARC-AGI-2的全稱為「Abstraction and Reasoning Corpus for Artificial General Intelligence-Version 2」,是ARC系列基準的最新升級版本。

該基準由François Chollet(Keras之父、前Google Brain研究員)及其團隊在2025年推出,其設計初衷十分明確:

測試AI是否具備AGI所必需的抽象、歸納與遷移推理能力,而非記憶或統計模式匹配。

ARC系列與傳統NLP或多模態benchmark最大的不同在于:它沒有大規模訓練集,每道題目都是從未見過的新任務,因此不存在通過「刷數據」獲得高分的可能。

它要求AI像人類一樣具備真正的推理和舉一反三的能力。

Chollet曾多次公開表示,如果一個系統只能在見過的數據分布上表現良好,那它并不具備AGI所需的能力。

因此,ARC基準測試剛好直擊大模型的「軟肋」。

從「及格」到「優等生」

一次關鍵跨越

新紀錄的刷新者,并非單一模型,而是一個名為Poetiq(GPT-5.2X-High)的系統。

Poetiq是一家專注于元系統(meta-System)架構的AI公司。

其核心理念并不是訓練一個更大的模型,而是通過軟件層面的系統設計,自動構建「會調用模型的系統」。

Poetiq(GPT-5.2X-High)在ARC-AGI-2數據集上實現了75%準確率,每問題成本不到8美元,超越前SOTA 15個百分點。

在Poetiq(GPT-5.2X-High)系統出現之前,GPT-5.2(X-High)已經非常接近人類平均水平。

ARC-AGI-2榜單中,人類平均準確率約為60%,GPT-5.2X-High的成績與之幾乎持平,代表了當時AI在該基準上的最強推理能力。

但Poetiq的加入,使GPT-5.2(X-High)的得分從60%直接拉升到了75%,從勉強及格(人類平均水平)邁入了優等生的行列(顯著超越人類平均水平)。

在同一榜單上,還能看到Gemini 3 Deep Think(Preview)的身影。

該模型主打「深度思考(Deep Think)」技術,在ARC-AGI-2上的成績約為46%,明顯落后于GPT-5.2系列,并且成本相對后者也略高。

Poetiq表示,整個過程沒有對GPT-5.2進行任何訓練或者特定優化。

這正是Poetiq元系統的初衷,旨在自動構建完整的系統,通過調用任何現有的前沿模型來解決特定任務。

從15%的提升數據來看,Poetiq對于基礎模型性能的提升幅度還是非常明顯的。

它的存在證明了不需要堆算力,通過優秀的軟件架構也能大幅提升AI性能。

從這個角度上,它也驗證了接下來OpenAI的一個判斷——

當前大模型,正逐漸進入「能力過剩」階段。

大模型「能力過剩」時代

就在同一天,OpenAI官方也在X平臺發布了一項關于2026年的預測。

在這條推文中,OpenAI明確提到一個關鍵詞:Capability Overhang(能力過剩)。

核心意思是:

當前模型「能夠做到的事情」,與人們「實際使用AI的方式」(產生效果)之間,存在巨大的斷層。

OpenAI認為,未來AGI的進展將不再僅取決于模型本身的突破,還將取決于:

人們是否知道如何有效使用AI

AI是否真正融入現實工作與生活

系統是否能將模型能力轉化為實際價值

因此,在2026年,OpenAI將繼續前沿研究,同時重點投入于應用層、系統層、人機協同,尤其強調醫療、商業和日常生活場景。

人機協同

AGI的另一半拼圖

OpenAI這篇官方推文涉及一個人機協同的問題。

實現AGI,是需要模型和人協同發揮作用:AGI不只靠模型升級,更要「教人用AI」。

通過正確的使用AI,充分發揮出AI的潛能,這樣才能讓AI開始從「炫技」轉向「普惠」,真正影響億萬人生活。

這一觀點也得到了社區的強烈回應。

于是,樂觀的網友稱「直接把我整個人自動化吧」!

也有網友提到,真正的挑戰在于如何將AI融入工作流程中:見過太多組織買了「AI」,卻從未改變任何一個流程。

大模型真的「能力過剩」了嗎?

那么,是不是真如OpenAI所說的,大模型的能力已經過剩了呢?

通過上面Poetiq所公布的Poetiq(GPT-5.2X-High)在ARC-AGI-2上的表現,75%的得分超過了人類平均水平(60%)15個百分點。

此前OpenAI官方在介紹GPT-5時強調其在解決復雜跨學科問題上達到了專家級基準,后被外界引申為「博士級智能」。

這說明GPT-5等大模型在某些專業任務中表現類似于人類博士的專業水平。

從模型本身來說,也許并未完全過剩,但從「未被充分釋放的能力」角度來看,已經嚴重過剩。

其中,有模型設計者方的原因,比如他們沒有緊跟用戶的使用場景,「不再與用戶并肩同行了」。

也可能由于前沿模型在推理和創新上缺乏根本性的突破。

還有模型本身迭代得太快,用戶不得不在日常生活中不斷棄用已經「成功上手」的模型。

Poetiq 的出現,以及OpenAI對「能力過剩」的判斷,共同指向了未來AI領域的一個新方向:

下一階段的AI競爭,不再只是模型參數之爭,而是系統、流程與人機協同的競爭。

 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 99视频国产精品免费观看a | 午夜精品久久久久久久久久久久 | 操碰91 | 亚洲一区二区三区在线观看视频 | 亚洲一区久久 | 成人精品自拍 | 亚洲一级一区 | 99re在线观看视频 | 国产一区二区三区高清 | 欧美精品日韩在线观看 | 成年人在线观看视频网站 | 色综合久久久久 | 成人午夜视频网站 | 可以在线观看的av网站 | 一区二区三区视频免费看 | 婷婷色五| 99久久夜色精品国产亚洲 | 日韩精品视频免费在线观看 | 四虎成人精品永久免费av九九 | 亚洲精品成人在线视频 | 日本免费网 | 国产精品久久久精品四季影院 | 91色多多| 久久综合影院 | 亚洲精品国产精品乱码不99 | 日韩一区二区三区中文字幕 | 久久精品在线免费观看 | 麻豆国产精品 | 婷婷色在线 | 国产美女免费网站 | 亚洲拍拍拍 | 久久精品福利视频 | 丝袜美腿亚洲综合 | 久久综合亚洲 | 亚洲欧美日韩免费 | 国产欧美在线播放 | 欧美日韩成人精品 | 欧美激情黑人 | 91九色视频在线 | 亚洲国产美女 | 国产www性 |