岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear旗下自媒體矩陣:

AI預測專家修正判斷:AI進展超預期,年底研發自動化或成現實

   時間:2026-03-10 20:05:05 來源:互聯網編輯:快訊 IP:北京 發表評論無障礙通道
 

在人工智能發展領域,近期一則消息引發了廣泛關注。知名AI預測研究者Ajeya Cotra對其之前的預測進行了重大修正,原因是Anthropic推出的最新模型Claude Opus 4.6在權威評測機構METR的基準測試中表現驚人,遠超她此前的預期。

Cotra曾是全球最大AI安全資助機構之一Coefficient Giving的AI安全研究資助負責人,現就職于專注于AI能力評估的METR機構。今年1月14日,她基于2019年至2025年間時間跨度每年翻倍不到兩次的歷史趨勢,對2026年底最先進模型的軟件工程能力做出預測:50%成功率的時間跨度約為24小時,80百分位預測為40小時。然而,僅僅兩個月后,Opus 4.6就打破了這一預測,其軟件工程“時間跨度”達到約12小時。在METR的測試集中,19項預計人類需耗時超過8小時的軟件工程任務里,Opus 4.6至少能部分完成14項,還能穩定攻克其中4項。面對這一情況,Cotra承認,在距離2026年底還有整整十個月進展的情況下,AI代理在24小時任務上仍有一半時間失敗,這使得她之前的預測不再可信。

值得注意的是,當前對時間跨度的估算存在較大不確定性。Opus 4.6的95%置信區間為5.3小時至66小時,這主要是因為長任務數量稀少、人工完成時間多為估算,且基準測試本身已接近飽和。

隨著AI代理能力不斷逼近甚至超越數十小時的任務量級,傳統評估框架正面臨挑戰。Cotra認為,“時間跨度”這一概念的適用性受到質疑。她指出,任務的可分解性會隨著規模增長而顯著提升。例如,一小時的調試任務幾乎無法拆分并行,一天的開發任務勉強可分工但邊界模糊,而一個月乃至數月的項目則天然適合拆解為多個并行子任務。一旦AI代理能夠穩定完成80小時量級的任務,理論上就可以通過“管理層AI”分配任務、“執行層AI”并行推進的方式,持續推進任意規模的項目。

Cotra的同事Tom提出,以大型團隊完成任務所需的日歷時間,而非單人工時,作為衡量“內在難度”的更優指標。Cotra也認同這一觀點,她認為隨著AI進入新量級,“單人時間”指標可能開始呈現超指數增長,這使得年底前軟件工程能力的上限極難估算。不過,她也承認大規模任務分解在實踐中不會完美運作,項目參與者對全局背景的直覺性把握,難以被Jira工單或Asana任務完全替代,但對于相當大一類軟件項目而言,這種模式可能較為有效。

在眾多預測中,Cotra對“AI研發全面自動化”的概率判斷最受矚目。她將這一概率定義為AI系統完全承擔研究構想與實施工作,無需人類參與。在1月的預測中,她給出了10%的概率,發布后收到多位同行反饋,認為這一數字偏高。但Opus 4.6的表現出爐后,她表示10%再次處于合理區間。不過,Cotra也保持審慎態度。她指出,全面自動化AI研發不僅需要軟件工程能力,還需要在“研究判斷力”和“創造力”等方面取得突破,而這些恰恰是當前AI系統相對人類研究者明顯欠缺的領域。她認為,這一目標在未來三至五年內實現的可能性遠高于今年之內,但她的措辭已發生根本性轉變:“這是我第一次,找不到任何可以外推的穩固趨勢,來斷言它不會很快發生。”

 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 99热这里精品 | 五月天丁香久久 | 天天爱天天干天天操 | av手机在线播放 | 成人免费视频网站在线观看 | 少妇av片在线观看 | 午夜免费体验 | 成人免费毛片嘿嘿连载视频 | 青春草在线| 国产福利视频在线 | 欧美一区二区影院 | 国产精品免费精品一区 | 私库av在线 | 亚洲日本中文字幕在线 | 毛片小视频 | 日本精品在线播放 | 在线观看精品视频 | 亚洲视频在线观看一区二区 | 国产成人精品亚洲线观看 | av免费观看网站 | 成人a级网站 | 免费成人深夜夜视频 | 久久久精彩视频 | 日产av在线播放 | www国产亚洲精品 | 黄色1级毛片 | 日韩成人免费视频 | 久久久综合色 | 欧美bbbbbbbbbbbb精品 | 韩国91视频 | 一区二区三区视频免费观看 | 爱av在线| 久久久在线免费观看 | 国产精品视频www | 一本一本久久a久久精品牛牛影视 | 超碰九七 | 亚洲一区在线免费观看 | 在线伊人网 | 台湾久久 | 69国产| a在线观看视频 |