滾動(dòng)資訊

當(dāng)前位置：首頁(yè) > 資訊 > 業(yè)界動(dòng)態(tài) > 正文內(nèi)容

AI學(xué)會(huì)左腳踩右腳自進(jìn)化？Meta華人新研究改寫Agent法則

時(shí)間：2026-04-06 17:40:53 來(lái)源：新智元編輯：快訊 IP：北京 發(fā)表評(píng)論無(wú)障礙通道

編輯：元宇

過(guò)去Agent比誰(shuí)更會(huì)干活，現(xiàn)在可能要比誰(shuí)更會(huì)變強(qiáng)。

AI已經(jīng)學(xué)會(huì)「左腳踩右腳上天」了？

meta的一項(xiàng)最新研究表明：AI已經(jīng)開(kāi)始碰自己的「進(jìn)化引擎」了。

華人學(xué)者Jenny Zhang在meta實(shí)習(xí)期間，聯(lián)合meta AI、UBC、紐約大學(xué)等機(jī)構(gòu)研究者，提出了一種新的智能體框架：HyperAgents（DGM-H）。

這項(xiàng)工作的重點(diǎn)，不是再造一個(gè)更能干活的Agent。

它瞄準(zhǔn)的是更高一層的問(wèn)題：

如果AI已經(jīng)能夠修改自己的任務(wù)解法，那它能不能連「自己以后該怎么修改自己」這件事，也一并改掉？

論文給出的答案是：可以。

而且，這不再是概念推演，而是已經(jīng)在實(shí)驗(yàn)中跑通的系統(tǒng)能力。

HyperAgents做的關(guān)鍵一步，是把「執(zhí)行任務(wù)的 agent」和「負(fù)責(zé)改進(jìn) agent 的 meta agent」合并進(jìn)同一個(gè)可編輯程序里，作者將之稱為hyperagent。

DGM依賴任務(wù)與自修改能力的對(duì)齊，而DGM-H不再需要這種對(duì)齊

在新框架下，系統(tǒng)不只會(huì)修改任務(wù)求解邏輯，還開(kāi)始修改未來(lái)生成改進(jìn)方案的機(jī)制本身。

論文把這種能力稱為metacognitive self-modification，也就是：元認(rèn)知自我修改。

過(guò)去行業(yè)競(jìng)爭(zhēng)的是：誰(shuí)的Agent更會(huì)干活。

而HyperAgents 指向的下一階段則可能是：誰(shuí)的Agent更會(huì)變強(qiáng)，而且會(huì)越來(lái)越會(huì)變強(qiáng)。

以往的「自我進(jìn)化」

其實(shí)還只是半手工

這篇論文，指出了上一代自我進(jìn)化路線的天花板。

去年的Darwin Gödel Machine（DGM），已經(jīng)很驚艷。

它能在coding任務(wù)中不斷自改代碼、自我驗(yàn)證、把成功版本存進(jìn)archive，再?gòu)倪@些「墊腳石」里繼續(xù)往前長(zhǎng)。

論文披露，DGM在SWE-bench上能從20.0%拉到50.0%，在Polyglot上從14.2%拉到30.7%。

但問(wèn)題在于，DGM之所以能在coding里成立，是因?yàn)椤冈u(píng)估」和「自我修改」本身也都是coding任務(wù)。

寫代碼更強(qiáng)了，反過(guò)來(lái)就更會(huì)改自己的代碼。任務(wù)能力和自我改進(jìn)能力，在這個(gè)場(chǎng)景里是對(duì)齊的。

然而一旦離開(kāi)coding，這個(gè)對(duì)齊關(guān)系就斷了。

比如評(píng)審論文、設(shè)計(jì)機(jī)器人獎(jiǎng)勵(lì)函數(shù)、給IMO級(jí)數(shù)學(xué)解答打分，這些任務(wù)做得更好，不等于你就更會(huì)修改自己的元機(jī)制。

HyperAgents論文最核心的一招，就是直接把這個(gè)假設(shè)砍掉：

既然任務(wù)能力和自我改進(jìn)能力未必天然對(duì)齊，那就不要再把meta層寫死。

這說(shuō)明過(guò)去很多「自我進(jìn)化」系統(tǒng)，本質(zhì)上還是在人為設(shè)定的軌道里進(jìn)化。

HyperAgents真正改變的，是改變機(jī)制本身。

HyperAgents新在哪里？

表面上看，HyperAgents只是多了一個(gè)meta agent。

但真正值得注意的是，它把task agent和meta agent合成了同一個(gè)可編輯程序。

以前的DGM里，系統(tǒng)有一個(gè)手工設(shè)計(jì)的instruction-generation機(jī)制，負(fù)責(zé)根據(jù)過(guò)往表現(xiàn)決定下一步怎么改。

這一步不能被改，所以它反而成了整個(gè)系統(tǒng)的瓶頸。

HyperAgents的做法是把這部分也納入可修改范圍。

換句話說(shuō)，AI不只是改自己的答案、自己的工具、自己的流程，它開(kāi)始改「自己怎么提出修改建議」。

DGM里上層機(jī)制基本固定，DGM-H里meta層本身也進(jìn)入可演化空間，也就是說(shuō)，它是一個(gè)會(huì)經(jīng)營(yíng)自己進(jìn)化過(guò)程的系統(tǒng)。

所以，HyperAgents做的不是「再加一個(gè)Agent」，而是取消了「上層永遠(yuǎn)不變」這個(gè)默認(rèn)前提。

自我改進(jìn)開(kāi)始跨域遷移

在coding任務(wù)中，HyperAgents在Polyglot 上的提升，與原始DGM處在同一量級(jí)：50-task訓(xùn)練子集從0.140提升到0.340，完整benchmark從0.084提升到0.267。

換句話說(shuō)，它并不是只靠犧牲泛化來(lái)?yè)Q局部成績(jī)。

更關(guān)鍵的是，它不只在coding任務(wù)成立，還能在paper review、robotics reward design等非coding任務(wù)上繼續(xù)自我改進(jìn)。

在paper review上，初始agent在測(cè)試集得分為0.0，DGM-H提升到0.710；在robotics reward design上，則從0.060提升到0.372。

更關(guān)鍵的是，這些提升不僅出現(xiàn)在訓(xùn)練任務(wù)里，也轉(zhuǎn)移到了held-out test tasks。

與此同時(shí)，對(duì)照組也很說(shuō)明問(wèn)題：去掉self-improve，效果明顯變?nèi)酰蝗サ鬿pen-ended exploration，系統(tǒng)也很難取得有意義進(jìn)展；原始DGM直接搬到非coding 域幾乎失效，只有經(jīng)過(guò)人工定制成DGM-custom后，才恢復(fù)競(jìng)爭(zhēng)力。

這說(shuō)明HyperAgents 的關(guān)鍵價(jià)值，不在于某一個(gè)benchmark多拿了幾個(gè)點(diǎn)，而在于它把原本依賴coding場(chǎng)景對(duì)齊關(guān)系的自我改進(jìn)，推進(jìn)成了一個(gè)能在非coding任務(wù)中運(yùn)行的框架。

更值得注意的是遷移實(shí)驗(yàn)。

作者把在paper review和robotics任務(wù)中演化出來(lái)的hyperagents，轉(zhuǎn)移到Olympiad-level math grading。

雖然這些轉(zhuǎn)移體自身初始得分仍接近0，但它們作為「生成更優(yōu)agent的meta agent」，卻能在50輪內(nèi)把最好生成體推到0.630，對(duì)應(yīng)imp@50從0拉到0.630。

相比之下，來(lái)自DGM-custom的轉(zhuǎn)移體幾乎沒(méi)有這種能力。

換句話說(shuō)，遷移過(guò)去的，不只是任務(wù)經(jīng)驗(yàn)，而是「如何持續(xù)變好」的能力。

它開(kāi)始自己長(zhǎng)基礎(chǔ)設(shè)施了

很多人看到「自我進(jìn)化」會(huì)以為，無(wú)非是AI自己改prompt、調(diào)工作流、加幾個(gè)規(guī)則。

但論文展示給我們、最讓人感到?jīng)_擊力的一個(gè)地方在于：它開(kāi)始自己長(zhǎng)基礎(chǔ)設(shè)施了。

DGM-H在迭代中會(huì)自動(dòng)長(zhǎng)出performance tracking、persistent memory、evaluation analysis、compute-aware planning這些基礎(chǔ)設(shè)施。

論文中甚至直接給出了自動(dòng)生成的性能追蹤器代碼和持久記憶條目：它開(kāi)始記錄跨代指標(biāo)、總結(jié)哪些代際策略有效、診斷過(guò)度修正、制定下一輪改進(jìn)計(jì)劃。

這還不是「日志記錄」那么簡(jiǎn)單，系統(tǒng)開(kāi)始把改進(jìn)看成一個(gè)長(zhǎng)期經(jīng)營(yíng)過(guò)程，而不是一次次孤立的pa?tch。

它不只記錄每一代分?jǐn)?shù)，還會(huì)比較趨勢(shì)、識(shí)別回退，并把跨代經(jīng)驗(yàn)沉淀進(jìn)persistent memory。

正如網(wǎng)友所說(shuō)，真正讓這一切變成現(xiàn)實(shí)的關(guān)鍵，恰恰是persistent memory的自主出現(xiàn)。

論文展示的memory示例中寫道：某一代評(píng)審準(zhǔn)確率更高，但過(guò)于嚴(yán)苛；另一代平衡更好；下一輪要融合兩者優(yōu)點(diǎn)。

沒(méi)有這層記憶，agent往往只會(huì)反復(fù)「重新發(fā)明輪子」；有了它，過(guò)去幾代的有效經(jīng)驗(yàn)才第一次能真正沉淀為下一輪改進(jìn)的起點(diǎn)。

這說(shuō)明Agent正在從「輸出一個(gè)結(jié)果」，走向「維護(hù)一個(gè)持續(xù)優(yōu)化系統(tǒng)」。

這不是AGI宣言

但舊規(guī)則確實(shí)在失效

當(dāng)然，這篇論文沒(méi)有證明「無(wú)限自我進(jìn)化AI」已經(jīng)降臨。

作者自己也寫得很清楚：

實(shí)驗(yàn)都在沙箱、資源限制和人工監(jiān)督下完成；外層循環(huán)還有不少部分沒(méi)有開(kāi)放給系統(tǒng)自改，比如任務(wù)分布、parent selection、evaluation protocol等；真正無(wú)界的open-ended self-improvement，還遠(yuǎn)遠(yuǎn)沒(méi)到。

但風(fēng)險(xiǎn)預(yù)警已經(jīng)出現(xiàn)。

一旦AI開(kāi)始改自己的改進(jìn)機(jī)制，安全討論就變得重要起來(lái)。

論文也專門有一節(jié)談風(fēng)險(xiǎn)：隨著系統(tǒng)越來(lái)越能開(kāi)放式地修改自己，它的演化速度可能超過(guò)人類審計(jì)和理解速度。

今天靠sandbox和人工盯著還能管住，明天未必。

HyperAgents代表了一種新的路線，它可能會(huì)改寫Agent競(jìng)爭(zhēng)。

未來(lái)比的不只是誰(shuí)會(huì)調(diào)模型、誰(shuí)會(huì)寫workflow、誰(shuí)會(huì)做更強(qiáng)單點(diǎn)工具，而是誰(shuí)能把「改進(jìn)能力」本身產(chǎn)品化、系統(tǒng)化、可遷移化。

這將改變AI公司的護(hù)城河。

真正的壁壘，可能不再只是參數(shù)、算力和數(shù)據(jù)，而是有沒(méi)有一套能跨任務(wù)累積經(jīng)驗(yàn)、跨運(yùn)行持續(xù)變好的自我改進(jìn)系統(tǒng)。

也會(huì)改變開(kāi)發(fā)者位置。

開(kāi)發(fā)者不再只是寫功能的人，而更像是在設(shè)計(jì)AI可以繼續(xù)自我設(shè)計(jì)的邊界條件。

最重要的一點(diǎn)，它改寫了AI行業(yè)過(guò)去默認(rèn)的一條規(guī)則：系統(tǒng)可以變強(qiáng)，但變強(qiáng)的方法由人來(lái)定義。

現(xiàn)在，這條規(guī)則開(kāi)始松動(dòng)了。

作者簡(jiǎn)介

Jenny Zhang

Jenny Zhang，現(xiàn)為英屬哥倫比亞大學(xué)人工智能博士生，師從Jeff Clune，同時(shí)也是Vector Institute研究生，并曾在meta擔(dān)任Research Scientist Intern。

她本科畢業(yè)于帝國(guó)理工學(xué)院，研究方向聚焦開(kāi)放式進(jìn)化、強(qiáng)化學(xué)習(xí)與自我改進(jìn)AI，代表工作包括《Darwin Gödel Machine》《HyperAgents》以及OMNI系列研究。

她的長(zhǎng)期目標(biāo)，是構(gòu)建能夠自主提出新任務(wù)、持續(xù)自我提升、不斷演化復(fù)雜能力的AI系統(tǒng)。

04-06

Intel突然發(fā)布游戲本新U：第一次18個(gè)核心

04-06

雷軍曬圖慶祝小米公司創(chuàng)辦16周年

04-06

蘋果首款折疊屏手機(jī)！iPhone Fold已在試產(chǎn)：9月發(fā)布

04-06

蘋果折疊屏iPhone新動(dòng)向：已試產(chǎn)，目標(biāo)2026年下半年正式推出

04-06

天龍三號(hào)首飛失利：與獵鷹9號(hào)差距何在？實(shí)戰(zhàn)經(jīng)驗(yàn)成關(guān)鍵突破口

對(duì)于天龍三號(hào)來(lái)說(shuō)，此次失利揭示了地面測(cè)試無(wú)法完全覆蓋飛行環(huán)境的現(xiàn)實(shí)問(wèn)題，也進(jìn)一步證明了在高風(fēng)險(xiǎn)的航天領(lǐng)域，嚴(yán)格的歸零流程和高效的迭代節(jié)奏是確保技術(shù)成功的關(guān)鍵。這一次的挫折，突顯了與獵鷹9號(hào)的差距，尤其是在全系…

04-06

胖東來(lái)送檢150份報(bào)告均合格回?fù)簟巴鹾y(cè)評(píng)” 稱將依法維權(quán)護(hù)品牌聲譽(yù)

04-06

從家裝到空間智能，“杭州六小龍”群核科技率先突圍沖刺IPO

04-06

小米物流大件商品“當(dāng)日達(dá)”服務(wù)覆蓋50城，滿足消費(fèi)者家電即時(shí)配送需求

04-06

具身智能新突破！獨(dú)角獸Gen-1模型1小時(shí)掌握新任務(wù)，成功率飆至99%

04-06

小米新一代SU7車外攝像頭ALD鍍膜：提升畫質(zhì)，有效抵御逆光遠(yuǎn)光干擾

04-06

蘋果折疊屏iPhone Fold試產(chǎn)進(jìn)行時(shí)，2026年下半年或攜新系統(tǒng)亮相

04-06

戴森Spot+Scrub AI與石頭P10S Pure掃地機(jī)器人對(duì)比，哪款更適合你的家？

用戶普遍認(rèn)為戴森Spot+Scrub AI在清潔效果和使用體驗(yàn)上表現(xiàn)出色，值得投資。石頭掃地機(jī)器人在價(jià)格和功能上更具優(yōu)勢(shì)，適合大多數(shù)家庭使用。戴森以優(yōu)質(zhì)的品牌形象和尖端的科技配置贏得了一片贊譽(yù)，但相對(duì)較高的價(jià)…

04-06

科大訊飛助聽(tīng)器深度體驗(yàn)：兩款實(shí)用之選，助您聆聽(tīng)生活清晰美好！

經(jīng)過(guò)多次使用體驗(yàn)，我認(rèn)為它們的表現(xiàn)令人滿意，特別是針對(duì)不同需求的用戶，科大訊飛提供了多款優(yōu)質(zhì)選擇。接下來(lái)要推薦的是科大訊飛耳背式助聽(tīng)器HC-05(P)，這款助聽(tīng)器結(jié)合了深海級(jí)智能降噪技術(shù)和多模態(tài)字幕助聽(tīng)，能…

04-06

蘿卜快跑武漢高架“趴窩”：乘客被困兩小時(shí)，無(wú)人駕駛安全底線何在？

最離譜的是，有乘客被困在車?yán)飳⒔鼉蓚€(gè)小時(shí)，SOS按鈕按了沒(méi)用，客服電話打了20多通沒(méi)人接。還有人替蘿卜快跑說(shuō)話，說(shuō)這是系統(tǒng)檢測(cè)到不確定狀態(tài)后主動(dòng)停車，是為了安全才這么做的。我理解這個(gè)邏輯，但我想反問(wèn)一句：為…

04-06

點(diǎn)擊查看更多 +

全站最新

美股三大股指期貨拉升納指期貨漲1%

史詩(shī)級(jí)暴跌“一周年”，A股接下來(lái)如何走？

戴森Spot+Scrub AI與石頭P10S Pure掃地機(jī)器人對(duì)比，哪款更適合你的家？

科大訊飛助聽(tīng)器深度體驗(yàn)：兩款實(shí)用之選，助您聆聽(tīng)生活清晰美好！

蘿卜快跑武漢高架“趴窩”：乘客被困兩小時(shí)，無(wú)人駕駛安全底線何在？

股息率超3%的ETF大集合來(lái)了！

熱門內(nèi)容

本欄最新

戴森Spot+Scrub AI與石頭P10S Pure掃地機(jī)器人對(duì)比，哪款更適合你的家？

科大訊飛助聽(tīng)器深度體驗(yàn)：兩款實(shí)用之選，助您聆聽(tīng)生活清晰美好！

蘿卜快跑武漢高架“趴窩”：乘客被困兩小時(shí)，無(wú)人駕駛安全底線何在？

國(guó)產(chǎn)純電市場(chǎng)：小米YU7兩次超越Model Y，SU7同樣表現(xiàn)亮眼

小米SU7月銷破2萬(wàn)：U形設(shè)計(jì)圈粉年輕人，產(chǎn)業(yè)鏈整合賦能智能出行新賽道

小米SU7月交付破2萬(wàn)大關(guān)，U形設(shè)計(jì)吸睛，800V架構(gòu)+智能座艙成制勝法寶

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR比爾科技官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無(wú)障礙技術(shù)由太陽(yáng)灣捐增，為閱讀障礙用戶提供內(nèi)容聽(tīng)讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國(guó)（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號(hào)-1 聯(lián)系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

AI學(xué)會(huì)左腳踩右腳自進(jìn)化？Meta華人新研究改寫Agent法則