阿里通義實驗室的Qwen Pilot團隊近日宣布推出一項名為FIPO的創(chuàng)新算法,該技術(shù)通過重構(gòu)強化學習框架,在復雜邏輯推理任務(wù)中實現(xiàn)了突破性進展。這項研究針對傳統(tǒng)模型在處理數(shù)學問題時難以識別關(guān)鍵推理路徑的痛點,提出了兩項核心機制:Future-KL策略通過動態(tài)評估Token對后續(xù)步驟的影響力,引導模型進行長程規(guī)劃;符號對數(shù)概率差機制則通過量化優(yōu)化方向的不確定性,有效避免了無效推理循環(huán)。
實驗數(shù)據(jù)顯示,搭載FIPO的320億參數(shù)模型在零樣本條件下展現(xiàn)出驚人表現(xiàn)。在純強化學習訓練模式下,該模型不僅超越了同規(guī)模競品,在部分數(shù)學推理指標上甚至優(yōu)于OpenAI的o1-mini模型。特別值得注意的是,新算法成功將平均推理長度提升至10,000 Token以上,較傳統(tǒng)方法提升了兩個數(shù)量級,徹底突破了推理深度的技術(shù)瓶頸。
技術(shù)團隊透露,F(xiàn)IPO算法的突破源于對推理過程的本質(zhì)重構(gòu)。傳統(tǒng)方法往往采用局部最優(yōu)策略,而新算法通過建立全局獎勵函數(shù),使模型能夠自主識別關(guān)鍵推理節(jié)點。這種設(shè)計類似于為AI系統(tǒng)安裝了"邏輯導航儀",在處理需要多步推導的數(shù)學問題時,能夠自動規(guī)劃最優(yōu)路徑并規(guī)避常見陷阱。
該成果的發(fā)布恰逢阿里通義實驗室在AI底層技術(shù)領(lǐng)域的密集突破期。今年3月,團隊剛推出CoPaw 1.0版本,通過優(yōu)化注意力機制顯著提升了模型的邏輯嚴密性。此次FIPO算法的推出,進一步印證了該實驗室在提升模型認知能力方面的技術(shù)積累,特別是在處理復雜推理任務(wù)時展現(xiàn)出的獨特優(yōu)勢。
行業(yè)分析師指出,這項研究重新定義了模型規(guī)模與推理能力的關(guān)系。在參數(shù)競賽日趨激烈的背景下,F(xiàn)IPO算法證明通過優(yōu)化獎勵機制和推理引導策略,較小規(guī)模的模型同樣能夠達到頂級推理水平。這種技術(shù)路徑不僅降低了計算資源消耗,更為開發(fā)高效、可靠的AI推理系統(tǒng)提供了新范式,或?qū)⑼苿诱麄€行業(yè)向更精細化的技術(shù)優(yōu)化方向轉(zhuǎn)型。











