阿里云近日宣布推出Qwen3.5-Omni全模態(tài)大模型,作為Qwen系列最新力作,該模型在多模態(tài)理解與交互領(lǐng)域?qū)崿F(xiàn)突破性進展。其核心架構(gòu)采用Hybrid-Attention MoE混合注意力專家網(wǎng)絡(luò),通過Thinker與Talker雙模塊協(xié)同處理復(fù)雜任務(wù),支持文本、圖像、音頻及音視頻的跨模態(tài)理解與生成。
在模型規(guī)格方面,Qwen3.5-Omni系列提供Plus、Flash、Light三種尺寸的Instruct版本。其中旗艦版Plus版本具備256K長上下文處理能力,可一次性解析超過10小時的音頻數(shù)據(jù)或400秒的720P高清視頻。訓(xùn)練數(shù)據(jù)集涵蓋海量文本、視覺素材及超1億小時的音視頻素材,通過原生多模態(tài)預(yù)訓(xùn)練技術(shù)實現(xiàn)跨模態(tài)語義對齊。
語言能力實現(xiàn)質(zhì)的飛躍,新模型支持113種語言及方言的語音識別,覆蓋全球主要語言體系,同時具備36種語言的語音生成能力。在離線性能測試中,Qwen3.5-Omni-Plus在215項子任務(wù)中刷新SOTA紀錄,包括3個音視頻基準測試、5個音頻基準測試、8個自動語音識別(ASR)基準測試、156個語音到文本(S2TT)任務(wù)及43個ASR專項任務(wù),全面超越Gemini-3.1 Pro的通用音頻處理能力。
該模型創(chuàng)新性地引入音視頻Caption生成技術(shù),可自動生成包含時間戳、人物關(guān)系及場景描述的結(jié)構(gòu)化文本,支持視頻內(nèi)容的智能切片與標注。更值得關(guān)注的是,通過多模態(tài)Scaling技術(shù),模型衍生出Audio-Visual Vibe Coding能力,能夠直接根據(jù)音視頻指令生成代碼,實現(xiàn)跨模態(tài)編程交互。
實時交互功能迎來重大升級,新模型支持五項核心特性:基于意圖識別的語義打斷功能可自動過濾無效背景音;集成WebSearch與復(fù)雜FunctionCall能力,支持自主決策是否調(diào)用外部資源;端到端語音控制系統(tǒng)允許用戶自由調(diào)節(jié)音量、語速及情緒表達;音色克隆技術(shù)支持用戶上傳音頻樣本定制專屬語音;ARIA動態(tài)對齊技術(shù)通過自適應(yīng)速率交錯編碼,徹底解決流式語音交互中的漏讀誤讀問題。
架構(gòu)設(shè)計方面,新模型延續(xù)Thinker-Talker雙引擎架構(gòu),但將輸入處理機制升級為ARIA動態(tài)對齊模式。Thinker模塊通過Vision Encoder與Aut組件并行處理視覺與音頻信號,Talker模塊則負責多模態(tài)輸入整合與上下文感知的語音生成,這種設(shè)計使文本與語音單元的同步精度提升40%。
開發(fā)者可通過Qwen Chat、HuggingFace及ModelScope平臺體驗離線及實時演示,商業(yè)用戶可通過阿里云百煉平臺調(diào)用API接口。模型提供55種音色選擇,包括5個中英雙語主音色、19個場景化音色、8個中文方言音色及23個多語言音色,滿足不同場景的個性化需求。








