螞蟻集團近日宣布,其自主研發的最新一代全模態大模型Ming-Flash-Omni 2.0正式面向全球開發者開源。該模型在視覺語言理解、語音合成控制及圖像生成編輯等關鍵技術領域取得突破性進展,多項性能指標已達到國際領先水平,部分測試結果甚至超越了當前主流的Gemini 2.5 Pro模型。
作為全球首個實現全場景音頻統一生成的技術方案,Ming-Flash-Omni 2.0突破了傳統模型在語音、音效、音樂分離處理的局限。通過創新的單音軌多元素融合技術,該模型可同步生成包含人聲對話、環境音效和背景音樂的完整音頻流。用戶通過自然語言指令即可精準控制音色特征、語速節奏、情感表達等20余種參數,甚至支持方言語音的定制化生成。
在計算效率方面,研發團隊通過架構優化將模型推理幀率降至3.1Hz,在保持48kHz高采樣率音頻生成質量的同時,實現分鐘級長音頻的實時輸出。這種高效能設計使模型在移動端設備部署時的計算資源消耗降低40%,響應速度提升3倍,為邊緣計算場景下的多模態應用開發提供了技術保障。
該模型的開源標志著螞蟻集團在全模態人工智能領域的技術積累進入新階段。自2018年啟動Ming-Omni系列研發以來,團隊已完成三次重大迭代升級。此次開源的2.0版本將核心算法框架、訓練數據集和部署工具鏈整體開放,開發者可通過螞蟻百靈平臺Ling Studio直接調用模型能力,或基于開源代碼進行二次開發,這為智能客服、數字人、內容創作等領域的端到端應用開發提供了標準化解決方案。











