螞蟻集團與清華大學聯合宣布,正式推出開源強化學習訓練框架AReaL v1.0穩定版。這一系統專為大規模異步強化學習設計,通過徹底解耦數據生成與模型訓練流程,顯著提升了大語言模型在推理任務中的訓練效率,尤其適用于需要處理海量思考Token的復雜場景。
傳統強化學習訓練系統普遍采用同步機制,要求生成階段必須等待批次中最慢的輸出完成才能啟動訓練。這種"木桶效應"導致大量GPU資源長期閑置,在處理需要生成數萬個思考Token的數學推理或代碼生成任務時,效率瓶頸尤為突出。研究團隊指出,同步系統的硬件利用率不足問題已成為制約大模型訓練規模擴展的關鍵因素。
AReaL系統采用完全異步架構,通過流水線式并行設計打破傳統限制。生成工作器可持續不斷產生新數據,訓練工作器則在數據積累到閾值后立即啟動模型更新,兩個環節完全獨立運行。這種設計消除了同步等待時間,使硬件資源利用率提升數倍,訓練過程呈現連續流暢特征。實驗數據顯示,在相同GPU配置下,系統處理復雜推理任務的速度較主流同步方案提升最高達2.77倍。
針對異步訓練帶來的數據"陳舊度"挑戰,研發團隊創新性地提出陳舊度感知訓練機制。該機制通過動態調整工作負載分配,在保證訓練穩定性的同時最大化數據新鮮度。系統還引入解耦PPO目標函數與可中斷生成技術,允許模型在生成過程中實時接收權重更新,徹底消除傳統方案中"生成-訓練"的割裂狀態。
性能驗證顯示,AReaL在數學推理(GSM8K、MATH)和代碼生成(Humaneval)等基準測試中表現優異。除訓練速度顯著提升外,模型在部分任務中的解題準確率反而出現增長。研究團隊認為,異步架構帶來的持續數據流動和模型更新,可能有助于大語言模型保持更優的推理狀態。該框架現已開源,開發者可通過指定渠道獲取完整代碼與文檔。











