2月11日消息,螞蟻集團(tuán)開(kāi)源發(fā)布全模態(tài)大模型Ming-flash-omni 2.0。在多項(xiàng)公開(kāi)基準(zhǔn)測(cè)試中,該模型在視覺(jué)語(yǔ)言理解、語(yǔ)音可控生成、圖像生成與編輯等關(guān)鍵能力表現(xiàn)突出。
據(jù)介紹,Ming-flash-omni 2.0是業(yè)界首個(gè)全場(chǎng)景音頻統(tǒng)一生成模型,可在同一條音軌中同時(shí)生成語(yǔ)音、環(huán)境音效與音樂(lè)。用戶只需用自然語(yǔ)言下指令,即可對(duì)音色、語(yǔ)速、語(yǔ)調(diào)、音量、情緒與方言等進(jìn)行精細(xì)控制。模型在推理階段實(shí)現(xiàn)了 3.1Hz 的極低推理幀率,實(shí)現(xiàn)了分鐘級(jí)長(zhǎng)音頻的實(shí)時(shí)高保真生成,在推理效率與成本控制上保持業(yè)界領(lǐng)先。
業(yè)內(nèi)普遍認(rèn)為,多模態(tài)大模型最終會(huì)走向更統(tǒng)一的架構(gòu),讓不同模態(tài)與任務(wù)實(shí)現(xiàn)更深層協(xié)同。但現(xiàn)實(shí)是,“全模態(tài)”模型往往很難同時(shí)做到通用與專精:在特定單項(xiàng)能力上,開(kāi)源模型往往不及專用模型。螞蟻集團(tuán)在全模態(tài)方向已持續(xù)投入多年,Ming-Omni系列正是在這一背景下持續(xù)演進(jìn):早期版本構(gòu)建統(tǒng)一多模態(tài)能力底座,中期版本驗(yàn)證規(guī)模增長(zhǎng)帶來(lái)的能力提升,而最新2.0版本通過(guò)更大規(guī)模數(shù)據(jù)與系統(tǒng)性訓(xùn)練優(yōu)化,將全模態(tài)理解與生成能力推至開(kāi)源領(lǐng)先水平,并在部分領(lǐng)域超越頂級(jí)專用模型。
此次將Ming-flash-omni 2.0開(kāi)源,意味著其核心能力以“可復(fù)用底座”的形式對(duì)外釋放,為端到端多模態(tài)應(yīng)用開(kāi)發(fā)提供統(tǒng)一能力入口。
Ming-flash-omni 2.0基于 Ling-2.0 架構(gòu)(MoE,100B-A6B)訓(xùn)練,圍繞“看得更準(zhǔn)、聽(tīng)得更細(xì)、生成更穩(wěn)”三大目標(biāo)全面優(yōu)化。視覺(jué)方面,融合億級(jí)細(xì)粒度數(shù)據(jù)與難例訓(xùn)練策略,顯著提升對(duì)近緣動(dòng)植物、工藝細(xì)節(jié)和稀有文物等復(fù)雜對(duì)象的識(shí)別能力;音頻方面,實(shí)現(xiàn)語(yǔ)音、音效、音樂(lè)同軌生成,支持自然語(yǔ)言精細(xì)控制音色、語(yǔ)速、情緒等參數(shù),并具備零樣本音色克隆與定制能力;圖像方面,增強(qiáng)復(fù)雜編輯的穩(wěn)定性,支持光影調(diào)整、場(chǎng)景替換、人物姿態(tài)優(yōu)化及一鍵修圖等功能,在動(dòng)態(tài)場(chǎng)景中仍保持畫面連貫與細(xì)節(jié)真實(shí)。
百靈模型負(fù)責(zé)人周俊表示,全模態(tài)技術(shù)的關(guān)鍵在于通過(guò)統(tǒng)一架構(gòu)實(shí)現(xiàn)多模態(tài)能力的深度融合與高效調(diào)用。開(kāi)源后,開(kāi)發(fā)者可基于同一套框架復(fù)用視覺(jué)、語(yǔ)音與生成能力,顯著降低多模型串聯(lián)的復(fù)雜度與成本。未來(lái),團(tuán)隊(duì)將持續(xù)優(yōu)化視頻時(shí)序理解、復(fù)雜圖像編輯與長(zhǎng)音頻生成實(shí)時(shí)性,完善工具鏈與評(píng)測(cè)體系,推動(dòng)全模態(tài)技術(shù)在實(shí)際業(yè)務(wù)中規(guī)模化落地。
目前,Ming-flash-omni 2.0的模型權(quán)重、推理代碼已在 Hugging Face等開(kāi)源社區(qū)發(fā)布。用戶也可通過(guò)螞蟻百靈官方平臺(tái)Ling Studio在線體驗(yàn)與調(diào)用。(周小白)











