人工智能領域迎來一項突破性進展——國際研究團隊成功開發出名為OpenMMReasoner的多模態推理模型,其性能較主流模型提升11.6%,且訓練方法與數據實現完全開源。這項由新加坡MiroMind AI公司、南洋理工大學、清華大學及LMMs-Lab團隊聯合完成的研究,通過創新的兩階段訓練策略,在保持模型高效性的同時實現了推理能力的顯著突破。
傳統AI模型訓練常被比喻為"黑箱烹飪",企業往往將核心數據與方法視為商業機密。研究團隊此次打破行業慣例,不僅公開最終模型,更將87.4萬條監督學習數據、7.4萬條強化學習數據、完整訓練流程及超參數設置全部開放。這種透明度在AI領域尚屬首次,為全球研究者提供了可復現的完整技術路徑。
模型性能提升得益于獨特的訓練架構設計。第一階段采用"教師模型蒸餾"技術,通過對比Qwen2.5-VL-72B與Qwen3-VL-235B兩個教師模型,發現后者使模型性能提升5.2個百分點。更關鍵的是,研究團隊發現對同一問題生成8個不同答案進行訓練時,模型得分較單答案訓練提升近10個百分點,這驗證了數據多樣性對推理能力的重要性。
在數據篩選策略上,研究團隊顛覆傳統認知。實驗表明,過度篩選反而降低模型性能,最終采用"無篩選"策略保留所有通過基礎驗證的數據。這種策略使模型在數學視覺推理測試MathVista中取得79.5%的準確率,較基準模型提升10.3個百分點。跨領域數據融合策略同樣成效顯著,同時添加圖像數學與文本數學數據使模型得分再提升1.1個百分點。
第二階段強化學習引入組合式獎勵機制,其中90%權重分配給答案準確性,10%關注輸出格式規范性。研究團隊通過對比GSPO、DAPO、GRPO三種算法,發現GSPO在穩定性和收斂速度上表現最優。長度懲罰機制的引入有效解決了"過度思考"問題,使模型輸出長度僅為同類模型的一半,同時保持推理深度。
訓練過程中出現的意外發現為AI發展提供新視角。模型在強化學習階段不僅提升多模態推理能力,純文本推理能力也同步增強,在AIME24數學競賽中的得分從6.7%躍升至27.1%。輸出文本分析顯示,"反思性"詞匯使用頻率隨訓練增加,表明模型逐漸形成深度思考模式。訓練穩定性實驗證實,生成溫度設為1.0、每次更新使用16個樣本的配置效果最佳。
在九項基準測試中,OpenMMReasoner展現全面優勢。除數學視覺推理外,在涵蓋藝術歷史到自然科學的MMMU測試中取得50.0%準確率,MMMU-Pro測試達57.8%。效率對比顯示,某些競爭模型雖能達到相似準確率,但輸出長度是OpenMMReasoner的兩倍,這在實際應用中將顯著增加計算成本。
該研究為資源有限的研究團隊提供新思路。OpenMMReasoner僅用87.4萬條監督學習樣本就達到其他模型數千萬樣本的訓練效果,證明科學的數據篩選與訓練策略比單純增加數據量更有效。完全開源的87.4萬樣本數據集與7.4萬樣本強化學習數據,已成為全球AI研究社區的重要資源。
對于普通研究者而言,這項成果具有特殊價值。所有訓練數據、代碼及模型參數均可免費獲取,研究者既能直接復現實驗結果,也可在此基礎上進行改進。研究團隊制作的對比表格顯示,在數據流程、監督學習數據、強化學習數據、模型權重四個關鍵維度,OpenMMReasoner是首個實現完全公開的先進多模態推理模型。











