滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

國際團隊開源新突破：AI多模態推理訓練全流程透明化公開

時間：2026-01-16 01:57:52 來源：互聯網編輯：快訊 IP：北京 發表評論無障礙通道

人工智能領域迎來一項突破性進展——國際研究團隊成功開發出名為OpenMMReasoner的多模態推理模型，其性能較主流模型提升11.6%，且訓練方法與數據實現完全開源。這項由新加坡MiroMind AI公司、南洋理工大學、清華大學及LMMs-Lab團隊聯合完成的研究，通過創新的兩階段訓練策略，在保持模型高效性的同時實現了推理能力的顯著突破。

傳統AI模型訓練常被比喻為"黑箱烹飪"，企業往往將核心數據與方法視為商業機密。研究團隊此次打破行業慣例，不僅公開最終模型，更將87.4萬條監督學習數據、7.4萬條強化學習數據、完整訓練流程及超參數設置全部開放。這種透明度在AI領域尚屬首次，為全球研究者提供了可復現的完整技術路徑。

模型性能提升得益于獨特的訓練架構設計。第一階段采用"教師模型蒸餾"技術，通過對比Qwen2.5-VL-72B與Qwen3-VL-235B兩個教師模型，發現后者使模型性能提升5.2個百分點。更關鍵的是，研究團隊發現對同一問題生成8個不同答案進行訓練時，模型得分較單答案訓練提升近10個百分點，這驗證了數據多樣性對推理能力的重要性。

在數據篩選策略上，研究團隊顛覆傳統認知。實驗表明，過度篩選反而降低模型性能，最終采用"無篩選"策略保留所有通過基礎驗證的數據。這種策略使模型在數學視覺推理測試MathVista中取得79.5%的準確率，較基準模型提升10.3個百分點。跨領域數據融合策略同樣成效顯著，同時添加圖像數學與文本數學數據使模型得分再提升1.1個百分點。

第二階段強化學習引入組合式獎勵機制，其中90%權重分配給答案準確性，10%關注輸出格式規范性。研究團隊通過對比GSPO、DAPO、GRPO三種算法，發現GSPO在穩定性和收斂速度上表現最優。長度懲罰機制的引入有效解決了"過度思考"問題，使模型輸出長度僅為同類模型的一半，同時保持推理深度。

訓練過程中出現的意外發現為AI發展提供新視角。模型在強化學習階段不僅提升多模態推理能力，純文本推理能力也同步增強，在AIME24數學競賽中的得分從6.7%躍升至27.1%。輸出文本分析顯示，"反思性"詞匯使用頻率隨訓練增加，表明模型逐漸形成深度思考模式。訓練穩定性實驗證實，生成溫度設為1.0、每次更新使用16個樣本的配置效果最佳。

在九項基準測試中，OpenMMReasoner展現全面優勢。除數學視覺推理外，在涵蓋藝術歷史到自然科學的MMMU測試中取得50.0%準確率，MMMU-Pro測試達57.8%。效率對比顯示，某些競爭模型雖能達到相似準確率，但輸出長度是OpenMMReasoner的兩倍，這在實際應用中將顯著增加計算成本。

該研究為資源有限的研究團隊提供新思路。OpenMMReasoner僅用87.4萬條監督學習樣本就達到其他模型數千萬樣本的訓練效果，證明科學的數據篩選與訓練策略比單純增加數據量更有效。完全開源的87.4萬樣本數據集與7.4萬樣本強化學習數據，已成為全球AI研究社區的重要資源。

對于普通研究者而言，這項成果具有特殊價值。所有訓練數據、代碼及模型參數均可免費獲取，研究者既能直接復現實驗結果，也可在此基礎上進行改進。研究團隊制作的對比表格顯示，在數據流程、監督學習數據、強化學習數據、模型權重四個關鍵維度，OpenMMReasoner是首個實現完全公開的先進多模態推理模型。

更多>同類資訊

李子柒治好了我的AI焦慮癥

02-22

AI時代的認知裂谷與K型分化：你是那1%嗎？

02-22

6G核心技術突破：三星聯合KT完成7GHz頻段X-MIMO技術驗證

02-22

奧爾特曼駁斥ChatGPT耗水相關謠言：完全不符合事實

02-22

數據顯示ChatGPT消費版更多用于個人任務，較少用于工作

02-22

ChatGPT消費版用途轉向：個人任務占比攀升，工作應用漸少

02-22

宇樹科技王興興談機器人發展：技術進步快，大規模應用或需3至10年

對話中，對于“現在機器人發展的技術階段是否就如一個10歲的孩子甚至更小？”2月17日，宇樹科技創始人王興興發微博稱：“有朋友問春晚機器人進化速度有多快，我想說這取決于大家對AI的想象力。此前，春晚《武B…

02-22

OpenAI CEO奧爾特曼：ChatGPT耗水謠言不實，能效或已追平人類

02-22

AI浪潮中上海老人緊跟步伐：智能設備助力，生活便捷又多彩

02-22

哈薩克斯坦宇通工廠：新春堅守忙生產新能源客車駛下線

02-22

李子柒：以經歷為引，用非遺溫情治愈這個時代的AI焦慮

02-22

AI浪潮下的認知分野：站在進化岔路口，你選擇成為1%還是99%？

02-22

OpenAI CEO奧爾特曼回應AI環境爭議：耗水謠言不實能源擔憂應聚焦總量

他還表示，人們擔憂人工智能的能源消耗總量是合理的 —— 并非單次提問的能耗，而是全球如今大規模使用人工智能帶來的總能耗。因此在他看來，公平的對比應當是：“在 ChatGPT 模型訓練完成后，回答一個問題所…

02-22

OpenAI CEO奧爾特曼：ChatGPT耗水謠言不實，能源對比應更公平

02-22

AI浪潮下的人類進化抉擇：99%退化與1%躍遷的認知分野

02-22

點擊查看更多 +

全站最新

春晚機器人引爆消費熱潮，中國智造加速邁進“人手一臺”新時代

廣汽集團戰略抉擇：聚焦埃安發展，能否開啟未來汽車市場新篇章？

磷酸鐵鋰與三元鋰：誰更適合家用？誰又能撐起高端電車市場？

穿越十萬公里的考驗：現代Staria舒適與實用并存，優缺點一目了然

雪鐵龍C3 Aircross與達契亞Duster對比：誰才是省錢實用之選？

馬斯克確認特斯拉Cybertruck全輪驅動版十天后動態調價粉絲看法兩極分化

熱門內容

本欄最新

中國芯片實力獲認可：豐田鈴木等外企選用，成本品質雙重優勢凸顯

黃仁勛預熱GTC 2026：將推“世界前所未見”芯片突破技術極限引期待

黃仁勛預熱GTC 2026：將推“世界未見”芯片突破技術極限引期待

黃仁勛預熱GTC 2026：將推“世界前所未見”芯片突破技術極限再領跑

黃仁勛預熱GTC 2026：全新芯片將至英偉達突破極限再領跑AI算力

從對話到實干：豆包大模型2.0化身全能助手，多領域展現驚人動手能力

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

國際團隊開源新突破：AI多模態推理訓練全流程透明化公開