知名AI預(yù)測研究者Ajeya Cotra近日對其兩個月前發(fā)布的2026年AI發(fā)展預(yù)測作出重大修正,承認當前AI技術(shù)突破速度遠超預(yù)期。這一調(diào)整源于Anthropic公司最新模型Claude Opus 4.6在權(quán)威評測機構(gòu)METR基準測試中的突破性表現(xiàn)——該模型在軟件工程領(lǐng)域的"時間跨度"指標達到12小時,較Cotra原預(yù)測的2026年底24小時水平提前近十個月實現(xiàn)。
METR測試數(shù)據(jù)顯示,在19項預(yù)計人類需耗時8小時以上的軟件工程任務(wù)中,Opus 4.6能部分完成14項并穩(wěn)定攻克4項。Cotra坦言,考慮到距離2026年底仍有十個月發(fā)展期,原預(yù)測模型中AI代理在24小時任務(wù)上失敗率仍達50%的假設(shè)已失去參考價值。她特別指出,當前時間跨度估算存在顯著不確定性,Opus 4.6的95%置信區(qū)間橫跨5.3至66小時,這主要受制于長任務(wù)樣本稀缺、人工耗時估算誤差以及基準測試接近理論極限等因素。
隨著AI處理能力突破數(shù)十小時任務(wù)量級,傳統(tǒng)評估框架正面臨嚴峻挑戰(zhàn)。Cotra分析指出,任務(wù)可分解性隨規(guī)模擴大呈現(xiàn)指數(shù)級提升:小時級調(diào)試任務(wù)難以拆分,日級開發(fā)任務(wù)可分工但邊界模糊,而月級項目則天然適合分解為并行子任務(wù)。其同事Tom提出,應(yīng)采用大型團隊完成項目所需的日歷時間替代單人工時作為難度指標,因為當AI穩(wěn)定處理80小時任務(wù)時,理論上可通過"管理層AI"分配任務(wù)、"執(zhí)行層AI"并行作業(yè)的方式推進任意規(guī)模項目。
盡管承認大規(guī)模任務(wù)分解存在局限性——如項目參與者對全局背景的直覺把握難以被任務(wù)管理系統(tǒng)完全替代,但Cotra認為這種模式對特定類型軟件項目可能產(chǎn)生超預(yù)期效果。她特別強調(diào),隨著AI進入新能力量級,傳統(tǒng)"單人時間"指標可能呈現(xiàn)超指數(shù)增長趨勢,導(dǎo)致年底前軟件工程能力上限難以預(yù)估。
在所有修正內(nèi)容中,Cotra對"AI研發(fā)全面自動化"的概率判斷引發(fā)行業(yè)震動。她將該概率定義為AI系統(tǒng)獨立承擔(dān)研究構(gòu)想與實施的全過程,此前1月預(yù)測中給出的10%概率曾遭多位同行質(zhì)疑過高。但Opus 4.6的表現(xiàn)使其重新確認該數(shù)值的合理性,盡管她同時強調(diào),全面自動化需要AI在研究判斷力和創(chuàng)造力等關(guān)鍵領(lǐng)域取得突破,這些恰是當前系統(tǒng)相對人類研究者的明顯短板。
這位供職于METR機構(gòu)的前Coefficient Giving安全研究資助負責(zé)人表示,雖然認為AI研發(fā)全面自動化在未來三至五年內(nèi)實現(xiàn)的可能性遠高于今年,但其預(yù)測立場已發(fā)生根本性轉(zhuǎn)變:"我首次無法找到可靠趨勢線,來支撐'這不會很快發(fā)生'的判斷。"這種表述與她年初"2026年底前不太可能實現(xiàn)重大突破"的論斷形成鮮明對比,折射出AI技術(shù)發(fā)展對專業(yè)預(yù)測體系的持續(xù)沖擊。













