螞蟻集團(tuán)近日宣布,正式開源其全模態(tài)大模型Ming-Flash-Omni的2.0版本。作為Ming-Omni系列的最新迭代,該模型在視覺語言理解、語音生成控制以及圖像生成與編輯等核心領(lǐng)域?qū)崿F(xiàn)了顯著提升,多項(xiàng)公開基準(zhǔn)測試結(jié)果顯示其性能已達(dá)到開源模型中的領(lǐng)先水平,部分指標(biāo)甚至超越了Gemini 2.5 Pro。
在音頻生成能力方面,Ming-Flash-Omni 2.0展現(xiàn)了強(qiáng)大的創(chuàng)新實(shí)力。模型支持在單一音軌中同步生成語音、環(huán)境音效和音樂,用戶可通過自然語言指令靈活調(diào)整音色、語速、語調(diào)、音量、情緒以及方言等參數(shù)。官方數(shù)據(jù)顯示,該模型在推理階段可達(dá)到3.1Hz的幀率,能夠高效生成長達(dá)數(shù)分鐘的音頻內(nèi)容。
視覺能力的升級(jí)同樣是此次更新的重點(diǎn)。通過引入更大規(guī)模的細(xì)粒度數(shù)據(jù)和難例訓(xùn)練策略,模型顯著增強(qiáng)了對(duì)復(fù)雜對(duì)象和長尾類別的識(shí)別能力。圖像生成與編輯功能也得到優(yōu)化,支持光影調(diào)整、場景替換、人物姿態(tài)修改等操作,并在復(fù)雜或動(dòng)態(tài)場景中保持了更高的穩(wěn)定性。
從架構(gòu)層面看,Ming-Flash-Omni 2.0基于Ling-2.0(MoE,100B-A6B)架構(gòu)進(jìn)行訓(xùn)練。官方介紹稱,該版本在更大規(guī)模數(shù)據(jù)和系統(tǒng)化訓(xùn)練優(yōu)化的基礎(chǔ)上,實(shí)現(xiàn)了多模態(tài)理解與生成能力的統(tǒng)一整合,為模型性能的提升奠定了堅(jiān)實(shí)基礎(chǔ)。
近年來,多模態(tài)大模型逐漸向統(tǒng)一架構(gòu)方向發(fā)展,但實(shí)際應(yīng)用中往往面臨通用性與單項(xiàng)能力難以兼顧的挑戰(zhàn)。螞蟻集團(tuán)表示,Ming-Omni系列經(jīng)過多代迭代,從構(gòu)建統(tǒng)一多模態(tài)能力底座,到擴(kuò)大規(guī)模與訓(xùn)練優(yōu)化,再到2.0版本強(qiáng)化單項(xiàng)能力表現(xiàn),逐步實(shí)現(xiàn)了綜合性能的全面提升。
百靈模型負(fù)責(zé)人周俊指出,全模態(tài)技術(shù)的核心在于統(tǒng)一架構(gòu)下的能力融合與調(diào)用效率。此次開源后,開發(fā)者可在同一框架下調(diào)用視覺、語音與生成能力,有效降低了多模型串聯(lián)帶來的工程復(fù)雜度,為實(shí)際應(yīng)用提供了更大便利。
目前,Ming-Flash-Omni 2.0的模型權(quán)重與推理代碼已在Hugging Face等開源社區(qū)發(fā)布,用戶還可通過螞蟻百靈平臺(tái)Ling Studio進(jìn)行在線體驗(yàn),進(jìn)一步探索模型的多樣化應(yīng)用場景。











