螞蟻集團近日宣布開源其最新研發的全模態大模型——Ming-Flash-Omni 2.0,這一成果標志著全場景音頻統一生成技術邁入新階段。該模型在視覺語言理解、語音可控生成、圖像編輯等多個領域展現出卓越性能,多項公開基準測試結果顯示其關鍵能力已達到行業領先水平。
作為業界首個實現全場景音頻統一生成的模型,Ming-Flash-Omni 2.0突破性地在單條音軌中同步生成語音、環境音效與音樂元素。用戶通過自然語言指令即可精準調控音色、語速、語調、音量及情緒參數,甚至支持方言定制。該模型在推理效率上實現重大突破,3.1Hz的極低幀率配合分鐘級長音頻的實時高保真生成能力,在成本控制與處理速度方面均處于行業前沿。
技術團隊通過系統性訓練優化,將模型能力推向新高度。基于Ling-2.0架構(MoE,100B-A6B)構建的模型,在視覺識別領域融合億級細粒度數據與難例訓練策略,顯著提升對近緣物種、工藝細節等復雜對象的識別精度;音頻生成模塊支持零樣本音色克隆技術,實現語音、音效、音樂的同軌無縫合成;圖像編輯功能則強化了復雜場景的穩定性,新增光影調整、場景替換等實用功能,即使在動態畫面中仍能保持細節真實度。
全模態技術的核心挑戰在于平衡通用性與專業性。螞蟻集團通過持續迭代Ming-Omni系列模型,逐步構建起統一的多模態能力底座。早期版本聚焦基礎能力整合,中期版本驗證規模效應,最新2.0版本則通過大規模數據訓練與架構優化,在保持開源模型開放性的同時,部分領域性能已超越專用模型。
此次開源將模型權重與推理代碼同步發布至Hugging Face等社區,開發者可通過螞蟻百靈官方平臺Ling Studio在線體驗。百靈模型負責人周俊指出,統一架構設計使視覺、語音、生成能力可高效復用,大幅降低多模型串聯的開發成本。技術團隊正持續優化視頻時序理解、長音頻實時生成等關鍵模塊,并完善配套工具鏈與評測體系。
該模型的開放策略引發行業廣泛關注。通過提供可復用的技術底座,螞蟻集團為端到端多模態應用開發開辟了新路徑。目前已有開發者基于該框架構建智能教育、內容創作等領域的創新應用,驗證了其在降低技術門檻、提升開發效率方面的顯著價值。











