倫敦大學學院、華為諾亞方舟實驗室與巴塞爾大學等機構組成的聯合研究團隊,在多任務語言模型訓練領域取得重要進展。其提出的MT-GRPO訓練框架通過動態平衡不同任務的學習強度,有效解決了傳統方法中"強者恒強、弱者恒弱"的失衡問題。這項發表于arXiv平臺的研究(編號:arXiv:2602.05547v1),為構建更可靠的通用型AI系統提供了新思路。
當前主流訓練方法存在顯著缺陷:一方面對簡單任務和復雜任務采用"一刀切"的資源分配策略,如同給食量不同的孩子分配相同份量的食物;另一方面存在大量無效訓練樣本,導致模型看似忙碌實則進步緩慢。研究團隊形象地將這種現象比作"課堂上的走神學生"——即便獲得訓練機會,也可能因梯度消失問題無法產生實際學習效果。
新框架的核心創新在于雙管齊下的改進機制。其"改進感知權重調整"系統突破了傳統僅關注任務絕對表現的局限,通過追蹤每個任務的進步軌跡動態調整訓練重點。當檢測到某個任務雖當前得分較低但進步顯著時,系統會保持現有訓練強度;若發現任務長期停滯不前,則會立即加大資源投入。這種機制確保模型發展既關注當前水平,更重視成長潛力。
配套開發的"比例保持采樣器"則解決了訓練效率難題。該組件通過預估每個任務的有效學習率,自動過濾無效訓練樣本。實驗數據顯示,在傳統方法中,若某任務分配30%訓練時間但僅30%樣本有效,實際學習時間僅9%;而新采樣器可將有效學習時間提升至接近理論值,確保資源投入產生實質性回報。
在數字推理、邏輯謎題和抽象模式識別三類典型任務的測試中,新方法展現出顯著優勢。三任務場景下,最弱任務的準確率較標準方法提升16-28個百分點,較先進方法DAPO提升6個百分點,同時訓練步數減少50%。當任務擴展至九個不同難度級別時,通過調節系統參數λ,可在提升最弱任務表現與維持整體性能間實現靈活平衡。
技術實現層面,研究團隊將多任務訓練轉化為約束優化問題,通過數學推導轉化為最大最小優化模型。系統采用softmax函數確保任務權重符合概率分布,配合梯度下降算法實現權重動態更新。這種設計既保證了理論嚴謹性,又確保了工程實現的穩定性。
消融實驗證實,改進感知權重調整和比例保持采樣器構成系統成功的兩大支柱。單獨移除任一組件都會導致性能顯著下降,驗證了理論分析的正確性。研究團隊特別指出,當前實驗基于30億參數模型,更大規模模型的適配性有待進一步驗證。
這項突破對AI應用產生深遠影響。在消費端,未來的AI助手將擺脫"偏科"局限,能夠在數學計算、邏輯推理、模式識別等多領域提供均衡可靠的服務。產業界則獲得重要技術工具,通過提升模型全面性增強市場競爭力,加速用戶信任建立和應用場景拓展。
研究團隊將訓練過程類比為教練培養運動員:新方法不僅關注運動員的當前成績,更重視其成長軌跡和潛力挖掘。這種訓練哲學推動AI發展從追求單項指標突破轉向追求整體能力均衡,為構建真正智能的系統開辟新路徑。技術細節詳見arXiv平臺完整論文。











