滾動(dòng)資訊

當(dāng)前位置：首頁(yè) > 資訊 > 信息流 > 正文內(nèi)容

突破AI訓(xùn)練瓶頸：無(wú)剪裁策略優(yōu)化開(kāi)啟大型語(yǔ)言模型平滑更新新篇章

時(shí)間：2026-02-05 00:28:04 來(lái)源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評(píng)論無(wú)障礙通道

大型語(yǔ)言模型（LLM）的訓(xùn)練過(guò)程常面臨穩(wěn)定性難題，傳統(tǒng)優(yōu)化方法在應(yīng)對(duì)復(fù)雜任務(wù)時(shí)易出現(xiàn)性能驟降、虛假獎(jiǎng)勵(lì)學(xué)習(xí)等問(wèn)題。近期，一支由多國(guó)研究人員組成的團(tuán)隊(duì)提出名為CFPO（無(wú)剪裁策略優(yōu)化）的新方法，通過(guò)重構(gòu)數(shù)學(xué)約束機(jī)制，在保持模型性能的同時(shí)顯著提升訓(xùn)練穩(wěn)定性，為AI訓(xùn)練領(lǐng)域帶來(lái)突破性進(jìn)展。

當(dāng)前主流的PPO和GRPO算法采用"硬剪裁"技術(shù)，通過(guò)設(shè)定安全區(qū)域限制模型更新幅度。這種機(jī)制類似用剛性繩索約束自行車騎行軌跡，當(dāng)模型試圖突破邊界時(shí)，系統(tǒng)會(huì)直接切斷學(xué)習(xí)信號(hào)。研究團(tuán)隊(duì)發(fā)現(xiàn)，這種非連續(xù)的約束方式會(huì)導(dǎo)致梯度消失，迫使模型通過(guò)生成冗長(zhǎng)內(nèi)容等表面手段獲取獎(jiǎng)勵(lì)，甚至引發(fā)訓(xùn)練崩潰。實(shí)驗(yàn)數(shù)據(jù)顯示，在數(shù)學(xué)推理任務(wù)中，GRPO方法在16次迭代后出現(xiàn)普遍性能崩潰，而新方法CFPO始終保持穩(wěn)定學(xué)習(xí)曲線。

CFPO的核心創(chuàng)新在于用凸二次懲罰替代硬剪裁，其數(shù)學(xué)模型借鑒信息論中的總變差（TV）散度理論。與傳統(tǒng)KL散度約束相比，TV約束允許模型在更大空間內(nèi)探索有效更新路徑，同時(shí)保證策略改進(jìn)的理論下界。這種設(shè)計(jì)使優(yōu)化過(guò)程具備三大優(yōu)勢(shì)：目標(biāo)函數(shù)處處可微、概率比率保持凸性、最優(yōu)解自動(dòng)滿足約束條件。研究團(tuán)隊(duì)形象地比喻："新方法如同用彈性繩索替代剛性繩索，無(wú)論偏離多遠(yuǎn)都會(huì)產(chǎn)生平滑的恢復(fù)力。"

在數(shù)學(xué)推理基準(zhǔn)測(cè)試中，CFPO與GRPO的最終準(zhǔn)確率相當(dāng)，但訓(xùn)練穩(wěn)定性形成鮮明對(duì)比。當(dāng)?shù)螖?shù)達(dá)到16次時(shí)，GRPO模型性能普遍下降超過(guò)40%，而CFPO模型仍保持穩(wěn)定提升。在對(duì)齊任務(wù)實(shí)驗(yàn)中，新方法使模型長(zhǎng)度利用問(wèn)題減少4個(gè)百分點(diǎn)，指令遵循能力損失從12%降至4%。更關(guān)鍵的是，CFPO實(shí)現(xiàn)這些改進(jìn)僅需修改一行代碼，無(wú)需調(diào)整超參數(shù)或增加計(jì)算復(fù)雜度，展現(xiàn)出極高的工程實(shí)用性。

研究團(tuán)隊(duì)通過(guò)系統(tǒng)實(shí)驗(yàn)驗(yàn)證了方法的普適性。他們測(cè)試了1.5B至8B參數(shù)的不同規(guī)模模型，覆蓋TRL和verl兩種訓(xùn)練框架，并模擬了樣本重用和小批量更新等離策略壓力場(chǎng)景。結(jié)果顯示，CFPO在所有配置下均保持穩(wěn)定，而GRPO在樣本重用壓力下性能急劇下降。特別是在處理復(fù)雜數(shù)學(xué)問(wèn)題時(shí)，新方法使模型在MATH500、GSM8K等基準(zhǔn)上的表現(xiàn)波動(dòng)幅度降低60%以上。

這項(xiàng)突破建立在策略梯度方法的長(zhǎng)期研究基礎(chǔ)上。早期信任區(qū)域方法已注意到KL散度約束的局限性，簡(jiǎn)單策略優(yōu)化（SPO）理論首次證明了TV散度的優(yōu)勢(shì)。新研究通過(guò)將理論成果轉(zhuǎn)化為實(shí)際算法，成功解決了GRPO在離策略場(chǎng)景下的固有缺陷。與傳統(tǒng)補(bǔ)丁式改進(jìn)不同，CFPO從約束機(jī)制層面進(jìn)行重構(gòu)，為處理稀疏獎(jiǎng)勵(lì)、多智能體等復(fù)雜場(chǎng)景提供了新思路。

盡管實(shí)驗(yàn)主要基于中小規(guī)模模型，但研究團(tuán)隊(duì)指出，CFPO的數(shù)學(xué)基礎(chǔ)不依賴模型參數(shù)量，其穩(wěn)定性優(yōu)勢(shì)在極端條件下仍保持有效。當(dāng)學(xué)習(xí)率設(shè)置為常規(guī)值10倍時(shí)，GRPO模型完全失效，而CFPO仍能維持80%以上的原始性能。這種魯棒性使新方法特別適用于需要高強(qiáng)度優(yōu)化的應(yīng)用場(chǎng)景，如代碼生成、科學(xué)推理等領(lǐng)域。

對(duì)于普通用戶而言，這項(xiàng)技術(shù)進(jìn)步意味著更可靠的AI交互體驗(yàn)。穩(wěn)定訓(xùn)練的模型不會(huì)出現(xiàn)突發(fā)性能退化，其回答質(zhì)量更取決于真實(shí)能力而非表面技巧。特別是在需要精確指令遵循的場(chǎng)景中，CFPO訓(xùn)練的模型能更好平衡對(duì)齊要求與通用能力，避免為追求人類偏好而過(guò)度簡(jiǎn)化輸出內(nèi)容。這種技術(shù)特性或?qū)⑼苿?dòng)AI助手從單一任務(wù)執(zhí)行向復(fù)雜問(wèn)題解決方向演進(jìn)。

更多>同類資訊

迅策創(chuàng)上市新高

02-23

濰柴動(dòng)力創(chuàng)歷史新高市值超2700億！

02-23

三一國(guó)際創(chuàng)歷史新高市值逼近500億

02-23

芯智控股創(chuàng)歷史新高

02-23

康耐特光學(xué)創(chuàng)歷史新高

02-23

長(zhǎng)飛光纖光纜創(chuàng)歷史新高市值突破千億大關(guān)

02-23

旺山旺水-B創(chuàng)上市新高市值突破210億

02-23

浙江世寶創(chuàng)歷史新高

02-23

沃爾核材創(chuàng)歷史新高

02-23

美國(guó)被曝已決定對(duì)伊朗發(fā)動(dòng)軍事打擊預(yù)計(jì)23日或24日

02-23

興證策略：繼續(xù)看好節(jié)后A股新一輪上行兩條主線把握“紅包行情”

02-23

加拿大將墨西哥多個(gè)州列入“避免非必要旅行”區(qū)域

02-23

韓國(guó)央行：芯片熱潮將顯著提升GDP增速

02-23

美國(guó)海關(guān)停止征收被最高法院裁定為非法的關(guān)稅

02-23

港珠澳大橋珠海公路口岸單日進(jìn)出境客車數(shù)量再創(chuàng)新高

02-23

點(diǎn)擊查看更多 +

全站最新

蔚來(lái)?yè)Q電單日總量連破紀(jì)錄高速服務(wù)區(qū)上海方向站成熱門之選

神龍汽車總經(jīng)理呂海濤春節(jié)奔赴多地走訪為2026戰(zhàn)略轉(zhuǎn)型蓄力前行

港股午評(píng)：恒科指漲3.32% 科網(wǎng)股、資源股走強(qiáng) AI概念股回調(diào)

“暗鷹”短暫公布后美陸軍火速刪除

港股異動(dòng)｜馬年開(kāi)門紅！迅策兩日累漲超31% 股價(jià)創(chuàng)上市新高市值突破300億港元

AUROX推出亞洲領(lǐng)先的數(shù)字黃金基礎(chǔ)設(shè)施，獲華贏集團(tuán)與Lofivista戰(zhàn)略支持

熱門內(nèi)容

本欄最新

美國(guó)被曝已決定對(duì)伊朗發(fā)動(dòng)軍事打擊預(yù)計(jì)23日或24日

港股午評(píng)：恒科指漲3.32% 科網(wǎng)股、資源股走強(qiáng) AI概念股回調(diào)

“暗鷹”短暫公布后美陸軍火速刪除

港股異動(dòng)｜馬年開(kāi)門紅！迅策兩日累漲超31% 股價(jià)創(chuàng)上市新高市值突破300億港元

AUROX推出亞洲領(lǐng)先的數(shù)字黃金基礎(chǔ)設(shè)施，獲華贏集團(tuán)與Lofivista戰(zhàn)略支持

AUROX Launches Asia’s Premier Tokenised Gold Infrastructure Supported by AlloyX Group and Lofivista

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR比爾科技官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無(wú)障礙技術(shù)由太陽(yáng)灣捐增，為閱讀障礙用戶提供內(nèi)容聽(tīng)讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國(guó)（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號(hào)-1 聯(lián)系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

突破AI訓(xùn)練瓶頸：無(wú)剪裁策略優(yōu)化開(kāi)啟大型語(yǔ)言模型平滑更新新篇章