阿里通義實(shí)驗(yàn)室的科研團(tuán)隊(duì)在人工智能領(lǐng)域取得重要進(jìn)展,推出名為FIPO(Future-KL Influenced Policy Optimization)的新型算法。該算法通過創(chuàng)新機(jī)制解決了大模型推理過程中的關(guān)鍵技術(shù)難題,特別是在復(fù)雜數(shù)學(xué)推理任務(wù)中展現(xiàn)出顯著優(yōu)勢(shì)。研究團(tuán)隊(duì)發(fā)現(xiàn),傳統(tǒng)強(qiáng)化學(xué)習(xí)方法在處理長推理鏈時(shí),難以有效區(qū)分不同Token對(duì)最終結(jié)果的貢獻(xiàn)度,導(dǎo)致模型推理能力受限。
FIPO算法的核心突破在于引入Future-KL機(jī)制,該機(jī)制通過量化每個(gè)Token對(duì)后續(xù)推理路徑的影響程度,構(gòu)建了精準(zhǔn)的獎(jiǎng)勵(lì)模型。與傳統(tǒng)方法不同,這種設(shè)計(jì)能夠動(dòng)態(tài)識(shí)別對(duì)推理過程具有關(guān)鍵作用的Token,有效解決了純強(qiáng)化學(xué)習(xí)訓(xùn)練中常見的"推理長度停滯"問題。實(shí)驗(yàn)數(shù)據(jù)顯示,在320億參數(shù)規(guī)模的純強(qiáng)化學(xué)習(xí)設(shè)置下,F(xiàn)IPO的表現(xiàn)優(yōu)于o1-mini和DeepSeek-Zero-MATH等同規(guī)模模型。
研究團(tuán)隊(duì)在分析強(qiáng)化學(xué)習(xí)訓(xùn)練過程時(shí)發(fā)現(xiàn),超過80%的Token在訓(xùn)練前后保持穩(wěn)定,這表明傳統(tǒng)評(píng)估指標(biāo)如熵和KL散度難以捕捉關(guān)鍵優(yōu)化點(diǎn)。為此,科研人員創(chuàng)新性地提出符號(hào)對(duì)數(shù)概率差(Δlog p)作為新的觀察維度,該指標(biāo)能夠準(zhǔn)確反映Token優(yōu)化的方向性變化。通過這種量化方式,算法可以更高效地聚焦于真正影響推理質(zhì)量的Token。
在基于Qwen2.5-32B-Base模型的實(shí)證測(cè)試中,F(xiàn)IPO算法展現(xiàn)出突破性成果。模型平均推理長度突破10,000Token大關(guān),較傳統(tǒng)方法提升數(shù)個(gè)數(shù)量級(jí)。更值得注意的是,該算法在保持推理效率的同時(shí),顯著提升了復(fù)雜數(shù)學(xué)問題的解決準(zhǔn)確率。這項(xiàng)成果為提升大模型推理能力提供了新的技術(shù)路徑,特別是在需要長程推理的科研和工程領(lǐng)域具有重要應(yīng)用價(jià)值。
科研人員指出,F(xiàn)IPO算法的創(chuàng)新性體現(xiàn)在三個(gè)維度:精準(zhǔn)的關(guān)鍵Token識(shí)別機(jī)制、動(dòng)態(tài)的未來影響評(píng)估體系,以及優(yōu)化的強(qiáng)化學(xué)習(xí)訓(xùn)練策略。這些技術(shù)突破共同作用,使模型能夠處理更復(fù)雜的推理任務(wù),同時(shí)保持計(jì)算效率。目前,研究團(tuán)隊(duì)正在探索該算法在代碼生成、邏輯推理等更多領(lǐng)域的應(yīng)用可能性。











