滾動資訊

當(dāng)前位置：首頁 > 資訊 > 業(yè)界動態(tài) > 正文內(nèi)容

阿里通義實(shí)驗(yàn)室SeeUPO算法：為AI智能體多輪訓(xùn)練穩(wěn)定性注入新動力

時(shí)間：2026-03-16 16:46:31 來源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評論無障礙通道

在人工智能領(lǐng)域，讓大型語言模型驅(qū)動的智能體在復(fù)雜多輪互動中穩(wěn)定學(xué)習(xí)并達(dá)到最優(yōu)表現(xiàn)，一直是研究人員追求的目標(biāo)。阿里巴巴通義實(shí)驗(yàn)室團(tuán)隊(duì)近期取得重要突破，提出了一種名為SeeUPO的新型強(qiáng)化學(xué)習(xí)算法，為解決這一難題提供了創(chuàng)新方案。

傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法在訓(xùn)練智能體時(shí)面臨諸多挑戰(zhàn)。以烹飪學(xué)習(xí)為例，智能體如同無法直接品嘗自己作品的學(xué)徒，只能依賴外部反饋判斷行動優(yōu)劣。現(xiàn)有方法主要分為兩類：一類是訓(xùn)練專門的評估網(wǎng)絡(luò)來預(yù)測行動價(jià)值，如同為學(xué)徒配備品嘗助手，但這種方法計(jì)算成本高，且評估網(wǎng)絡(luò)水平不足會誤導(dǎo)學(xué)習(xí)；另一類采用群體對比策略，通過比較多個(gè)行動結(jié)果來判斷優(yōu)劣，如GRAE算法，雖無需額外評估網(wǎng)絡(luò)，但在多輪互動場景下，難以準(zhǔn)確判斷每輪行動的真實(shí)價(jià)值，導(dǎo)致學(xué)習(xí)過程不穩(wěn)定。

多輪互動場景的復(fù)雜性遠(yuǎn)超單輪場景。以準(zhǔn)備一頓完整晚餐為例，開胃菜、主菜和甜點(diǎn)的制作順序和成功與否都會影響最終用餐體驗(yàn)。現(xiàn)有主流強(qiáng)化學(xué)習(xí)算法在處理這類問題時(shí)，存在根本性的權(quán)衡困境：無需評估網(wǎng)絡(luò)的方法計(jì)算效率高，但多輪場景下難以保證穩(wěn)定收斂；能保證收斂的方法又依賴準(zhǔn)確的價(jià)值函數(shù)估計(jì)，這在多輪場景中幾乎無法實(shí)現(xiàn)。

為深入理解這一問題，研究團(tuán)隊(duì)對主流算法進(jìn)行了系統(tǒng)分析。他們發(fā)現(xiàn)，GRAE與REINFORCE組合在無折扣設(shè)置下雖能保證收斂，但折扣因子不等于1時(shí)，梯度估計(jì)會產(chǎn)生偏差；GAE與PPU組合理論上能保證單調(diào)改進(jìn)和收斂，但依賴準(zhǔn)確的價(jià)值網(wǎng)絡(luò)估計(jì)，在多輪場景下難以實(shí)現(xiàn)；而GRAE與PPU組合存在致命缺陷，GRAE引入的結(jié)構(gòu)性偏差會破壞PPO原有的單調(diào)改進(jìn)性質(zhì)，導(dǎo)致優(yōu)勢估計(jì)出現(xiàn)系統(tǒng)性偏差，且在多輪場景下這種偏差會隨回合數(shù)增加而累積，引發(fā)嚴(yán)重的信用分配問題。

面對這些理論挑戰(zhàn)，研究團(tuán)隊(duì)提出了SeeUPO算法。該算法的核心思想是將多輪互動問題轉(zhuǎn)化為一系列順序執(zhí)行的多智能體單輪問題。具體而言，它將多輪互動建模為虛擬多智能體系統(tǒng)，每輪對應(yīng)一個(gè)虛擬智能體，各智能體負(fù)責(zé)特定輪次決策，同時(shí)考慮其他智能體行動對全局結(jié)果的影響。SeeUPO最獨(dú)特的設(shè)計(jì)是反向更新順序，即按照從最后一輪到第一輪的順序更新策略。這種設(shè)計(jì)靈感源自動態(tài)規(guī)劃中的后向歸納法，當(dāng)更新某一輪策略時(shí)，后續(xù)輪次策略已更新至最優(yōu)，使得當(dāng)前輪次能基于最優(yōu)后續(xù)策略做決策，實(shí)現(xiàn)全局優(yōu)化。

在技術(shù)實(shí)現(xiàn)上，SeeUPO采用HAML框架保證單調(diào)改進(jìn)性，使用GRAE進(jìn)行優(yōu)勢估計(jì)，避免依賴額外評估網(wǎng)絡(luò)。同時(shí)，它通過優(yōu)勢函數(shù)分解實(shí)現(xiàn)隱式回合級信用分配，準(zhǔn)確評估每輪行動真實(shí)貢獻(xiàn)，分解基于重要性采樣比率，將全局優(yōu)勢函數(shù)分解為各輪次條件優(yōu)勢函數(shù)。

為驗(yàn)證SeeUPO的有效性，研究團(tuán)隊(duì)在AppWorld和BFCL v4兩個(gè)具有挑戰(zhàn)性的多輪智能體基準(zhǔn)測試上進(jìn)行了實(shí)驗(yàn)。AppWorld是可控的應(yīng)用程序和人員世界，用于評估交互式編程智能體，要求智能體通過多步API交互完成復(fù)雜任務(wù)；BFCL v4是伯克利函數(shù)調(diào)用排行榜的多輪基準(zhǔn)測試，注重智能體多輪對話中的函數(shù)調(diào)用能力，每輪結(jié)束進(jìn)行基于狀態(tài)和響應(yīng)的雙重檢查。實(shí)驗(yàn)中，所有方法使用相同訓(xùn)練配置，采用Qwen2.5 - 14B和Qwen3 - 14B兩個(gè)不同規(guī)模基礎(chǔ)模型。結(jié)果顯示，在Qwen3 - 14B模型上，SeeUPO在兩個(gè)基準(zhǔn)測試上平均性能分別達(dá)到60.80% avg@4和72.85% pass@4，相對改進(jìn)幅度為43.3%到54.6%；在Qwen2.5 - 14B模型上，平均性能為53.07% avg@4和63.59% pass@4，相對改進(jìn)幅度為24.1%到41.9%。SeeUPO在訓(xùn)練穩(wěn)定性方面表現(xiàn)優(yōu)異，所有測試場景中訓(xùn)練曲線穩(wěn)定，未出現(xiàn)災(zāi)難性性能崩潰，而其他方法如GRPO和GSPO在某些設(shè)置下性能下降嚴(yán)重。

研究團(tuán)隊(duì)還進(jìn)行了一系列消融實(shí)驗(yàn)，驗(yàn)證了反向更新順序的重要性，與隨機(jī)順序或正向順序相比，反向更新性能最佳，證實(shí)了后向歸納理論的有效性。同時(shí)，比較了三種優(yōu)勢歸一化策略，發(fā)現(xiàn)批級歸一化既能提供數(shù)值穩(wěn)定性，又能保持理論收斂保證，而組級歸一化會破壞收斂性保證。

在計(jì)算效率方面，SeeUPO因采用回合級順序更新機(jī)制和優(yōu)勢修正項(xiàng)計(jì)算，訓(xùn)練時(shí)間約為基線方法的1.5倍。但它能更快收斂到更好性能水平，且與其他無評估網(wǎng)絡(luò)方法使用相同計(jì)算資源（8個(gè)GPU），傳統(tǒng)PPO方法則需16個(gè)GPU訓(xùn)練額外價(jià)值網(wǎng)絡(luò)。更重要的是，SeeUPO避免了訓(xùn)練失敗風(fēng)險(xiǎn)，從長期看更加經(jīng)濟(jì)高效。

SeeUPO不僅是一種實(shí)用算法，還為強(qiáng)化學(xué)習(xí)理論做出重要貢獻(xiàn)。研究首次系統(tǒng)性分析了主流強(qiáng)化學(xué)習(xí)算法在多輪場景下的收斂性問題，填補(bǔ)了此前理論空白。研究證明了在多輪上下文賭博機(jī)設(shè)置下，反向更新順序能保證收斂到全局最優(yōu)策略，為未來算法設(shè)計(jì)提供新思路。對優(yōu)勢估計(jì)偏差的深入分析，解釋了現(xiàn)有GRAE - PPU組合方法在多輪場景下表現(xiàn)不佳的原因，對理解和改進(jìn)現(xiàn)有方法具有重要價(jià)值。SeeUPO將復(fù)雜問題分解為簡單子問題的思路，為處理其他復(fù)雜序列決策問題提供了新范式。

Q&A

問：SeeUPO是什么？

答：SeeUPO是阿里巴巴通義實(shí)驗(yàn)室開發(fā)的新型強(qiáng)化學(xué)習(xí)算法，用于訓(xùn)練大型語言模型做智能體。它將多輪互動問題轉(zhuǎn)化為多智能體問題，采用反向更新順序保證訓(xùn)練穩(wěn)定性和收斂到最優(yōu)解。

問：為什么SeeUPO比現(xiàn)有方法更好？

答：現(xiàn)有強(qiáng)化學(xué)習(xí)方法在多輪場景下無法同時(shí)實(shí)現(xiàn)無需額外評估網(wǎng)絡(luò)和保證收斂性。SeeUPO通過獨(dú)特算法設(shè)計(jì)解決了這一問題，實(shí)驗(yàn)中相比基線方法性能提升24.1%到54.6%，且訓(xùn)練穩(wěn)定。

問：SeeUPO的反向更新順序有什么特別之處？

答：SeeUPO從最后一輪開始向前更新策略。這樣更新某一輪時(shí)，后續(xù)輪次已是最優(yōu)狀態(tài)，當(dāng)前輪次可基于最優(yōu)后續(xù)策略做決策，實(shí)現(xiàn)全局優(yōu)化。

更多>同類資訊

小米新品來襲！3月19日SU7上市，還有超輕薄本和長續(xù)航手表

03-16

拉布布熱度漸退，泡泡瑪特新IP崛起，能否擺脫單一IP桎梏？

03-16

3月19日晚7點(diǎn)小米新品齊發(fā)！SU7攜筆記本與手表亮相，配置升級亮點(diǎn)多

03-16

京東廚房小家電AWE發(fā)力：以鈦趨勢與AI創(chuàng)新引領(lǐng)行業(yè)體驗(yàn)升級新路徑

錨定“鈦趨勢+AI”戰(zhàn)略，京東廚小明確升級路徑京東廚房小家電提出“鈦趨勢+AI”戰(zhàn)略，本質(zhì)是圍繞用戶最核心的廚房需求，重構(gòu)產(chǎn)品與體驗(yàn)的競爭邏輯。面向未來，京東廚房小家電還將繼續(xù)圍繞“鈦趨勢+AI”發(fā)展主線…

03-16

拓竹科技MakerWorld平臺與泡泡瑪特IP糾紛落幕雙方友好和解問題內(nèi)容全下架

03-16

雷軍官宣！新一代小米SU7全系12項(xiàng)標(biāo)配升級，Pro版續(xù)航突破902公里

03-16

小米大家電定下2026新目標(biāo)：攻堅(jiān)質(zhì)量難題，重塑品牌信任破偏見

03-16

SpaceX再創(chuàng)佳績！32手獵鷹9號助力星鏈在軌衛(wèi)星超萬顆

03-16

Meta調(diào)整策略：Instagram 5月8日起將停用端到端加密消息功能

03-16

雷軍談造車抉擇與SU7迭代：透露AI進(jìn)展，新SU7即將上市

03-16

存儲漲價(jià)潮來襲，盧偉冰談小米REDMI K90：理解友商，自身也承壓

03-16

盧偉冰談REDMI K90漲價(jià)疑云：理解友商困境，小米同樣面臨壓力

03-16

雷軍力薦！小米新一代SU7 3月19日上市，12項(xiàng)全系標(biāo)配實(shí)力進(jìn)階

03-16

阿里巴巴本周或推企業(yè)級AI Agent應(yīng)用，整合多業(yè)務(wù)加碼AI市場布局

03-16

小米研究員羅福莉新論文聚焦AI Agent：動作級調(diào)度破解算力浪費(fèi)難題

03-16

點(diǎn)擊查看更多 +

全站最新

臺股收跌0.17%

ETF異動丨南方兩倍做多海力士(7709.HK)拉升漲超14%

日股收跌0.13%

韓股收漲1.14%

A股異動丨騰遠(yuǎn)鈷業(yè)跌逾6% 股價(jià)創(chuàng)年內(nèi)新低

A股異動丨華銳精密4日連跌累跌近20% 多名股東擬逢高減持

熱門內(nèi)容

本欄最新

雷軍官宣：潛心打磨2年新一代SU7將于3月19日晚7點(diǎn)震撼登場

小米兒童兩輪平衡車深度評測：安全有趣，助力孩子暢享智能出行

雷軍官宣：3月19日新一代小米SU7上市，全系12項(xiàng)標(biāo)配助力智能出行新體驗(yàn)

智駕新體驗(yàn)！星途ET5廣州復(fù)雜路況實(shí)測，獵鷹700展現(xiàn)硬核實(shí)力

廣州復(fù)雜路況實(shí)測星途ET5：上調(diào)5000元，智駕禮包價(jià)值能否實(shí)至名歸？

雷軍官宣：新一代SU7 3月19日晚7點(diǎn)亮相兩年匠心打磨成就夢想座駕

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR比爾科技官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時(shí)刪除。
中國（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號-1 聯(lián)系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

阿里通義實(shí)驗(yàn)室SeeUPO算法：為AI智能體多輪訓(xùn)練穩(wěn)定性注入新動力