大型語(yǔ)言模型(LLM)的訓(xùn)練過(guò)程常面臨穩(wěn)定性難題,傳統(tǒng)優(yōu)化方法在應(yīng)對(duì)復(fù)雜任務(wù)時(shí)易出現(xiàn)性能驟降、虛假獎(jiǎng)勵(lì)學(xué)習(xí)等問(wèn)題。近期,一支由多國(guó)研究人員組成的團(tuán)隊(duì)提出名為CFPO(無(wú)剪裁策略優(yōu)化)的新方法,通過(guò)重構(gòu)數(shù)學(xué)約束機(jī)制,在保持模型性能的同時(shí)顯著提升訓(xùn)練穩(wěn)定性,為AI訓(xùn)練領(lǐng)域帶來(lái)突破性進(jìn)展。
當(dāng)前主流的PPO和GRPO算法采用"硬剪裁"技術(shù),通過(guò)設(shè)定安全區(qū)域限制模型更新幅度。這種機(jī)制類似用剛性繩索約束自行車騎行軌跡,當(dāng)模型試圖突破邊界時(shí),系統(tǒng)會(huì)直接切斷學(xué)習(xí)信號(hào)。研究團(tuán)隊(duì)發(fā)現(xiàn),這種非連續(xù)的約束方式會(huì)導(dǎo)致梯度消失,迫使模型通過(guò)生成冗長(zhǎng)內(nèi)容等表面手段獲取獎(jiǎng)勵(lì),甚至引發(fā)訓(xùn)練崩潰。實(shí)驗(yàn)數(shù)據(jù)顯示,在數(shù)學(xué)推理任務(wù)中,GRPO方法在16次迭代后出現(xiàn)普遍性能崩潰,而新方法CFPO始終保持穩(wěn)定學(xué)習(xí)曲線。
CFPO的核心創(chuàng)新在于用凸二次懲罰替代硬剪裁,其數(shù)學(xué)模型借鑒信息論中的總變差(TV)散度理論。與傳統(tǒng)KL散度約束相比,TV約束允許模型在更大空間內(nèi)探索有效更新路徑,同時(shí)保證策略改進(jìn)的理論下界。這種設(shè)計(jì)使優(yōu)化過(guò)程具備三大優(yōu)勢(shì):目標(biāo)函數(shù)處處可微、概率比率保持凸性、最優(yōu)解自動(dòng)滿足約束條件。研究團(tuán)隊(duì)形象地比喻:"新方法如同用彈性繩索替代剛性繩索,無(wú)論偏離多遠(yuǎn)都會(huì)產(chǎn)生平滑的恢復(fù)力。"
在數(shù)學(xué)推理基準(zhǔn)測(cè)試中,CFPO與GRPO的最終準(zhǔn)確率相當(dāng),但訓(xùn)練穩(wěn)定性形成鮮明對(duì)比。當(dāng)?shù)螖?shù)達(dá)到16次時(shí),GRPO模型性能普遍下降超過(guò)40%,而CFPO模型仍保持穩(wěn)定提升。在對(duì)齊任務(wù)實(shí)驗(yàn)中,新方法使模型長(zhǎng)度利用問(wèn)題減少4個(gè)百分點(diǎn),指令遵循能力損失從12%降至4%。更關(guān)鍵的是,CFPO實(shí)現(xiàn)這些改進(jìn)僅需修改一行代碼,無(wú)需調(diào)整超參數(shù)或增加計(jì)算復(fù)雜度,展現(xiàn)出極高的工程實(shí)用性。
研究團(tuán)隊(duì)通過(guò)系統(tǒng)實(shí)驗(yàn)驗(yàn)證了方法的普適性。他們測(cè)試了1.5B至8B參數(shù)的不同規(guī)模模型,覆蓋TRL和verl兩種訓(xùn)練框架,并模擬了樣本重用和小批量更新等離策略壓力場(chǎng)景。結(jié)果顯示,CFPO在所有配置下均保持穩(wěn)定,而GRPO在樣本重用壓力下性能急劇下降。特別是在處理復(fù)雜數(shù)學(xué)問(wèn)題時(shí),新方法使模型在MATH500、GSM8K等基準(zhǔn)上的表現(xiàn)波動(dòng)幅度降低60%以上。
這項(xiàng)突破建立在策略梯度方法的長(zhǎng)期研究基礎(chǔ)上。早期信任區(qū)域方法已注意到KL散度約束的局限性,簡(jiǎn)單策略優(yōu)化(SPO)理論首次證明了TV散度的優(yōu)勢(shì)。新研究通過(guò)將理論成果轉(zhuǎn)化為實(shí)際算法,成功解決了GRPO在離策略場(chǎng)景下的固有缺陷。與傳統(tǒng)補(bǔ)丁式改進(jìn)不同,CFPO從約束機(jī)制層面進(jìn)行重構(gòu),為處理稀疏獎(jiǎng)勵(lì)、多智能體等復(fù)雜場(chǎng)景提供了新思路。
盡管實(shí)驗(yàn)主要基于中小規(guī)模模型,但研究團(tuán)隊(duì)指出,CFPO的數(shù)學(xué)基礎(chǔ)不依賴模型參數(shù)量,其穩(wěn)定性優(yōu)勢(shì)在極端條件下仍保持有效。當(dāng)學(xué)習(xí)率設(shè)置為常規(guī)值10倍時(shí),GRPO模型完全失效,而CFPO仍能維持80%以上的原始性能。這種魯棒性使新方法特別適用于需要高強(qiáng)度優(yōu)化的應(yīng)用場(chǎng)景,如代碼生成、科學(xué)推理等領(lǐng)域。
對(duì)于普通用戶而言,這項(xiàng)技術(shù)進(jìn)步意味著更可靠的AI交互體驗(yàn)。穩(wěn)定訓(xùn)練的模型不會(huì)出現(xiàn)突發(fā)性能退化,其回答質(zhì)量更取決于真實(shí)能力而非表面技巧。特別是在需要精確指令遵循的場(chǎng)景中,CFPO訓(xùn)練的模型能更好平衡對(duì)齊要求與通用能力,避免為追求人類偏好而過(guò)度簡(jiǎn)化輸出內(nèi)容。這種技術(shù)特性或?qū)⑼苿?dòng)AI助手從單一任務(wù)執(zhí)行向復(fù)雜問(wèn)題解決方向演進(jìn)。







