滾動資訊

當前位置：首頁 > 資訊 > 信息流 > 正文內(nèi)容

AI預(yù)測專家坦言低估進展：AI研發(fā)自動化或于今年取得關(guān)鍵突破

時間：2026-03-10 11:04:53 來源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評論無障礙通道

知名AI預(yù)測研究者Ajeya Cotra近日對其兩個月前發(fā)布的2026年AI發(fā)展預(yù)測作出重大修正，承認當前AI技術(shù)突破速度遠超預(yù)期。這一調(diào)整源于Anthropic公司最新模型Claude Opus 4.6在權(quán)威評測機構(gòu)METR基準測試中的突破性表現(xiàn)——該模型在軟件工程領(lǐng)域的"時間跨度"指標達到12小時，較Cotra原預(yù)測的2026年底24小時水平提前近十個月實現(xiàn)。

METR測試數(shù)據(jù)顯示，在19項預(yù)計人類需耗時8小時以上的軟件工程任務(wù)中，Opus 4.6能部分完成14項并穩(wěn)定攻克4項。Cotra坦言，考慮到距離2026年底仍有十個月發(fā)展期，原預(yù)測模型中AI代理在24小時任務(wù)上失敗率仍達50%的假設(shè)已失去參考價值。她特別指出，當前時間跨度估算存在顯著不確定性，Opus 4.6的95%置信區(qū)間橫跨5.3至66小時，這主要受制于長任務(wù)樣本稀缺、人工耗時估算誤差以及基準測試接近理論極限等因素。

隨著AI處理能力突破數(shù)十小時任務(wù)量級，傳統(tǒng)評估框架正面臨嚴峻挑戰(zhàn)。Cotra分析指出，任務(wù)可分解性隨規(guī)模擴大呈現(xiàn)指數(shù)級提升：小時級調(diào)試任務(wù)難以拆分，日級開發(fā)任務(wù)可分工但邊界模糊，而月級項目則天然適合分解為并行子任務(wù)。其同事Tom提出，應(yīng)采用大型團隊完成項目所需的日歷時間替代單人工時作為難度指標，因為當AI穩(wěn)定處理80小時任務(wù)時，理論上可通過"管理層AI"分配任務(wù)、"執(zhí)行層AI"并行作業(yè)的方式推進任意規(guī)模項目。

盡管承認大規(guī)模任務(wù)分解存在局限性——如項目參與者對全局背景的直覺把握難以被任務(wù)管理系統(tǒng)完全替代，但Cotra認為這種模式對特定類型軟件項目可能產(chǎn)生超預(yù)期效果。她特別強調(diào)，隨著AI進入新能力量級，傳統(tǒng)"單人時間"指標可能呈現(xiàn)超指數(shù)增長趨勢，導(dǎo)致年底前軟件工程能力上限難以預(yù)估。

在所有修正內(nèi)容中，Cotra對"AI研發(fā)全面自動化"的概率判斷引發(fā)行業(yè)震動。她將該概率定義為AI系統(tǒng)獨立承擔(dān)研究構(gòu)想與實施的全過程，此前1月預(yù)測中給出的10%概率曾遭多位同行質(zhì)疑過高。但Opus 4.6的表現(xiàn)使其重新確認該數(shù)值的合理性，盡管她同時強調(diào)，全面自動化需要AI在研究判斷力和創(chuàng)造力等關(guān)鍵領(lǐng)域取得突破，這些恰是當前系統(tǒng)相對人類研究者的明顯短板。

這位供職于METR機構(gòu)的前Coefficient Giving安全研究資助負責(zé)人表示，雖然認為AI研發(fā)全面自動化在未來三至五年內(nèi)實現(xiàn)的可能性遠高于今年，但其預(yù)測立場已發(fā)生根本性轉(zhuǎn)變："我首次無法找到可靠趨勢線，來支撐'這不會很快發(fā)生'的判斷。"這種表述與她年初"2026年底前不太可能實現(xiàn)重大突破"的論斷形成鮮明對比，折射出AI技術(shù)發(fā)展對專業(yè)預(yù)測體系的持續(xù)沖擊。

更多>同類資訊

優(yōu)樂賽共享創(chuàng)上市新低

03-10

中東警報解除！韓國芯片巨頭“報復(fù)性”反彈，南方兩倍做多海力士(7709.HK)暴漲23%

03-10

眾智科技創(chuàng)歷史新高

03-10

OPPO和一加發(fā)布價格調(diào)整公告

03-10

巨頭集體推“小龍蝦”產(chǎn)品！科創(chuàng)芯片設(shè)計ETF天弘(589070)標的指數(shù)大漲2.8%

03-10

分析師：預(yù)計印尼央行將在油價波動中繼續(xù)捍衛(wèi)印尼盾

03-10

第二屆核能峰會定于10日在法國巴黎舉行

03-10

Omdia：2025年東南亞智能手機出貨量達到1億部同比下降1%

03-10

微軟拓展與Anthropic合作關(guān)系，推出Copilot Cowork搶攻AI代理市場

03-10

伊朗霍梅因地區(qū)一學(xué)校據(jù)稱遭美導(dǎo)彈襲擊

03-10

百奧賽圖-B創(chuàng)歷史新高

03-10

中東沖突緩和+BD出海持續(xù)，規(guī)模最大的恒生醫(yī)藥ETF(159892)飆漲4%，港股通醫(yī)療ETF(520510)漲近3%

03-10

伊朗伊斯蘭革命衛(wèi)隊：擁有“更強大、數(shù)量更多”的導(dǎo)彈

03-10

納斯達克計劃推出全天候代幣化股票交易服務(wù)

03-10

港股異動丨發(fā)盈警，普華和順一度大跌超23%

03-10

點擊查看更多 +

全站最新

韓國KOSPI指數(shù)暴漲6%

B站盈利與用戶增長背后：創(chuàng)作者與用戶深度關(guān)系構(gòu)筑獨特生態(tài)位

抖音小游戲2026：生態(tài)賦能規(guī)模躍升，技術(shù)驅(qū)動行業(yè)邁向精品化新階段

增程技術(shù)輿論風(fēng)向大變：從被批到受認可，理想揭秘背后緣由

吉利星越L全新長風(fēng)系列上市！12.47萬元起享智能豪華燃油SUV新體驗

大眾安徽與眾08內(nèi)飾官圖亮相！雙聯(lián)屏+豪華配置，3月上市引期待

熱門內(nèi)容

本欄最新

美股三大指數(shù)集體收漲，納指漲1.38%，閃迪漲超11%，中概指數(shù)漲1.76%

OpenClaw創(chuàng)始人否認“官方微博”真實性稱未注冊且非官方團隊運營

突破1億用戶的韓束，用23年"長期主義"構(gòu)筑世界級美妝品牌

BBA的皇冠掉了

月薪兩萬，真養(yǎng)不起“龍蝦”

“養(yǎng)龍蝦”全網(wǎng)刷屏！巨頭連夜入局，OpenClaw殺瘋了

本網(wǎng)站LOGO小熊標志受版權(quán)保護，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) 魯ICP備11015305號-1 聯(lián)系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

AI預(yù)測專家坦言低估進展：AI研發(fā)自動化或于今年取得關(guān)鍵突破