在人工智能領(lǐng)域,讓大型語言模型驅(qū)動的智能體在復(fù)雜多輪互動中穩(wěn)定學(xué)習(xí)并達(dá)到最優(yōu)表現(xiàn),一直是研究人員追求的目標(biāo)。阿里巴巴通義實(shí)驗(yàn)室團(tuán)隊(duì)近期取得重要突破,提出了一種名為SeeUPO的新型強(qiáng)化學(xué)習(xí)算法,為解決這一難題提供了創(chuàng)新方案。
傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法在訓(xùn)練智能體時(shí)面臨諸多挑戰(zhàn)。以烹飪學(xué)習(xí)為例,智能體如同無法直接品嘗自己作品的學(xué)徒,只能依賴外部反饋判斷行動優(yōu)劣。現(xiàn)有方法主要分為兩類:一類是訓(xùn)練專門的評估網(wǎng)絡(luò)來預(yù)測行動價(jià)值,如同為學(xué)徒配備品嘗助手,但這種方法計(jì)算成本高,且評估網(wǎng)絡(luò)水平不足會誤導(dǎo)學(xué)習(xí);另一類采用群體對比策略,通過比較多個(gè)行動結(jié)果來判斷優(yōu)劣,如GRAE算法,雖無需額外評估網(wǎng)絡(luò),但在多輪互動場景下,難以準(zhǔn)確判斷每輪行動的真實(shí)價(jià)值,導(dǎo)致學(xué)習(xí)過程不穩(wěn)定。
多輪互動場景的復(fù)雜性遠(yuǎn)超單輪場景。以準(zhǔn)備一頓完整晚餐為例,開胃菜、主菜和甜點(diǎn)的制作順序和成功與否都會影響最終用餐體驗(yàn)。現(xiàn)有主流強(qiáng)化學(xué)習(xí)算法在處理這類問題時(shí),存在根本性的權(quán)衡困境:無需評估網(wǎng)絡(luò)的方法計(jì)算效率高,但多輪場景下難以保證穩(wěn)定收斂;能保證收斂的方法又依賴準(zhǔn)確的價(jià)值函數(shù)估計(jì),這在多輪場景中幾乎無法實(shí)現(xiàn)。
為深入理解這一問題,研究團(tuán)隊(duì)對主流算法進(jìn)行了系統(tǒng)分析。他們發(fā)現(xiàn),GRAE與REINFORCE組合在無折扣設(shè)置下雖能保證收斂,但折扣因子不等于1時(shí),梯度估計(jì)會產(chǎn)生偏差;GAE與PPU組合理論上能保證單調(diào)改進(jìn)和收斂,但依賴準(zhǔn)確的價(jià)值網(wǎng)絡(luò)估計(jì),在多輪場景下難以實(shí)現(xiàn);而GRAE與PPU組合存在致命缺陷,GRAE引入的結(jié)構(gòu)性偏差會破壞PPO原有的單調(diào)改進(jìn)性質(zhì),導(dǎo)致優(yōu)勢估計(jì)出現(xiàn)系統(tǒng)性偏差,且在多輪場景下這種偏差會隨回合數(shù)增加而累積,引發(fā)嚴(yán)重的信用分配問題。
面對這些理論挑戰(zhàn),研究團(tuán)隊(duì)提出了SeeUPO算法。該算法的核心思想是將多輪互動問題轉(zhuǎn)化為一系列順序執(zhí)行的多智能體單輪問題。具體而言,它將多輪互動建模為虛擬多智能體系統(tǒng),每輪對應(yīng)一個(gè)虛擬智能體,各智能體負(fù)責(zé)特定輪次決策,同時(shí)考慮其他智能體行動對全局結(jié)果的影響。SeeUPO最獨(dú)特的設(shè)計(jì)是反向更新順序,即按照從最后一輪到第一輪的順序更新策略。這種設(shè)計(jì)靈感源自動態(tài)規(guī)劃中的后向歸納法,當(dāng)更新某一輪策略時(shí),后續(xù)輪次策略已更新至最優(yōu),使得當(dāng)前輪次能基于最優(yōu)后續(xù)策略做決策,實(shí)現(xiàn)全局優(yōu)化。
在技術(shù)實(shí)現(xiàn)上,SeeUPO采用HAML框架保證單調(diào)改進(jìn)性,使用GRAE進(jìn)行優(yōu)勢估計(jì),避免依賴額外評估網(wǎng)絡(luò)。同時(shí),它通過優(yōu)勢函數(shù)分解實(shí)現(xiàn)隱式回合級信用分配,準(zhǔn)確評估每輪行動真實(shí)貢獻(xiàn),分解基于重要性采樣比率,將全局優(yōu)勢函數(shù)分解為各輪次條件優(yōu)勢函數(shù)。
為驗(yàn)證SeeUPO的有效性,研究團(tuán)隊(duì)在AppWorld和BFCL v4兩個(gè)具有挑戰(zhàn)性的多輪智能體基準(zhǔn)測試上進(jìn)行了實(shí)驗(yàn)。AppWorld是可控的應(yīng)用程序和人員世界,用于評估交互式編程智能體,要求智能體通過多步API交互完成復(fù)雜任務(wù);BFCL v4是伯克利函數(shù)調(diào)用排行榜的多輪基準(zhǔn)測試,注重智能體多輪對話中的函數(shù)調(diào)用能力,每輪結(jié)束進(jìn)行基于狀態(tài)和響應(yīng)的雙重檢查。實(shí)驗(yàn)中,所有方法使用相同訓(xùn)練配置,采用Qwen2.5 - 14B和Qwen3 - 14B兩個(gè)不同規(guī)模基礎(chǔ)模型。結(jié)果顯示,在Qwen3 - 14B模型上,SeeUPO在兩個(gè)基準(zhǔn)測試上平均性能分別達(dá)到60.80% avg@4和72.85% pass@4,相對改進(jìn)幅度為43.3%到54.6%;在Qwen2.5 - 14B模型上,平均性能為53.07% avg@4和63.59% pass@4,相對改進(jìn)幅度為24.1%到41.9%。SeeUPO在訓(xùn)練穩(wěn)定性方面表現(xiàn)優(yōu)異,所有測試場景中訓(xùn)練曲線穩(wěn)定,未出現(xiàn)災(zāi)難性性能崩潰,而其他方法如GRPO和GSPO在某些設(shè)置下性能下降嚴(yán)重。
研究團(tuán)隊(duì)還進(jìn)行了一系列消融實(shí)驗(yàn),驗(yàn)證了反向更新順序的重要性,與隨機(jī)順序或正向順序相比,反向更新性能最佳,證實(shí)了后向歸納理論的有效性。同時(shí),比較了三種優(yōu)勢歸一化策略,發(fā)現(xiàn)批級歸一化既能提供數(shù)值穩(wěn)定性,又能保持理論收斂保證,而組級歸一化會破壞收斂性保證。
在計(jì)算效率方面,SeeUPO因采用回合級順序更新機(jī)制和優(yōu)勢修正項(xiàng)計(jì)算,訓(xùn)練時(shí)間約為基線方法的1.5倍。但它能更快收斂到更好性能水平,且與其他無評估網(wǎng)絡(luò)方法使用相同計(jì)算資源(8個(gè)GPU),傳統(tǒng)PPO方法則需16個(gè)GPU訓(xùn)練額外價(jià)值網(wǎng)絡(luò)。更重要的是,SeeUPO避免了訓(xùn)練失敗風(fēng)險(xiǎn),從長期看更加經(jīng)濟(jì)高效。
SeeUPO不僅是一種實(shí)用算法,還為強(qiáng)化學(xué)習(xí)理論做出重要貢獻(xiàn)。研究首次系統(tǒng)性分析了主流強(qiáng)化學(xué)習(xí)算法在多輪場景下的收斂性問題,填補(bǔ)了此前理論空白。研究證明了在多輪上下文賭博機(jī)設(shè)置下,反向更新順序能保證收斂到全局最優(yōu)策略,為未來算法設(shè)計(jì)提供新思路。對優(yōu)勢估計(jì)偏差的深入分析,解釋了現(xiàn)有GRAE - PPU組合方法在多輪場景下表現(xiàn)不佳的原因,對理解和改進(jìn)現(xiàn)有方法具有重要價(jià)值。SeeUPO將復(fù)雜問題分解為簡單子問題的思路,為處理其他復(fù)雜序列決策問題提供了新范式。
Q&A
問:SeeUPO是什么?
答:SeeUPO是阿里巴巴通義實(shí)驗(yàn)室開發(fā)的新型強(qiáng)化學(xué)習(xí)算法,用于訓(xùn)練大型語言模型做智能體。它將多輪互動問題轉(zhuǎn)化為多智能體問題,采用反向更新順序保證訓(xùn)練穩(wěn)定性和收斂到最優(yōu)解。
問:為什么SeeUPO比現(xiàn)有方法更好?
答:現(xiàn)有強(qiáng)化學(xué)習(xí)方法在多輪場景下無法同時(shí)實(shí)現(xiàn)無需額外評估網(wǎng)絡(luò)和保證收斂性。SeeUPO通過獨(dú)特算法設(shè)計(jì)解決了這一問題,實(shí)驗(yàn)中相比基線方法性能提升24.1%到54.6%,且訓(xùn)練穩(wěn)定。
問:SeeUPO的反向更新順序有什么特別之處?
答:SeeUPO從最后一輪開始向前更新策略。這樣更新某一輪時(shí),后續(xù)輪次已是最優(yōu)狀態(tài),當(dāng)前輪次可基于最優(yōu)后續(xù)策略做決策,實(shí)現(xiàn)全局優(yōu)化。












