螞蟻集團近日正式開源了新一代全模態大模型Ming-Flash-Omni 2.0,該模型在視覺語言理解、語音可控生成及圖像編輯等核心領域展現出卓越性能,部分指標已超越國際主流模型Gemini 2.5 Pro,為開源社區樹立了全模態技術的新標桿。
作為業界首個實現全場景音頻統一生成的模型,Ming-Flash-Omni 2.0突破了傳統音頻處理的局限,可在單條音軌中同步生成語音、環境音效與背景音樂。用戶通過自然語言指令即可精準調控音色、語速、語調、音量及情緒參數,甚至支持方言定制與零樣本音色克隆,為影視配音、游戲音效等場景提供了高效解決方案。
在推理效率方面,該模型實現了3.1Hz的極低幀率,支持分鐘級長音頻的實時高保真生成,同時將計算成本控制在行業領先水平。這一突破得益于其基于Ling-2.0架構(MoE,100B-A6B)的優化設計,通過混合專家模型與億級數據訓練,在視覺、音頻、圖像三大模態上實現了系統性提升。
視覺領域,模型通過融合細粒度數據與難例訓練策略,顯著增強了對近緣物種、工藝細節及稀有文物的識別能力。圖像編輯功能則支持光影調整、場景替換、人物姿態優化等復雜操作,即使在動態場景中也能保持畫面連貫性與細節真實性,為專業設計提供了強大工具。
音頻生成方面,除同軌合成技術外,模型還具備自然語言驅動的精細控制能力,可實時調整語音情感表達與音效層次。圖像生成模塊則通過增強穩定性算法,使一鍵修圖、背景替換等功能更加可靠,降低了專業內容創作的門檻。
目前,Ming-Flash-Omni 2.0的模型權重與推理代碼已在Hugging Face等開源平臺全面開放,開發者可通過螞蟻百靈官方平臺Ling Studio進行在線體驗與調用。此次開源標志著螞蟻集團將多年積累的全模態技術以可復用底座的形式對外釋放,為端到端多模態應用開發提供了統一的能力入口。
據悉,Ming-Omni系列模型已歷經三次迭代,此次升級圍繞"精準識別、細膩感知、穩定生成"三大目標展開,通過架構創新與數據工程結合,在復雜場景下的多模態交互能力上取得關鍵突破,為AI技術在內容創作、智能交互等領域的應用開辟了新路徑。











