阿里巴巴近日正式發布新一代全模態大模型Qwen3.5-Omni,標志著多模態人工智能技術邁入新階段。該模型突破傳統單一模態限制,支持文本、圖像、音頻及音視頻的混合輸入與輸出,其中音頻輸出與文本輸出可同步生成,為智能交互領域帶來全新可能。
技術團隊披露,Qwen3.5-Omni系列包含Plus、Flash、Light三種規格模型,最大支持256k長上下文處理能力。在音頻處理方面,該模型可連續解析超過10小時的語音內容,音視頻輸入時長擴展至400秒(720P分辨率,1幀/秒)。經實測驗證,模型在215項多模態任務中刷新多項最佳紀錄,其音頻理解、推理及翻譯能力已超越Gemini-3.1 Pro,音視頻綜合處理水平與之持平。
該模型最引人注目的創新在于"視聽編程"能力。在演示場景中,用戶通過手機攝像頭拍攝手繪草圖并語音描述需求,模型即可實時生成對應的前端代碼。當測試團隊上傳50分鐘美劇《老友記》時,系統在1分鐘內完成全片解析,不僅精準標注時間軸與人物關系,還能識別關鍵劇情轉折點。更令人驚嘆的是,模型可根據游戲直播畫面自動檢測違規內容,展現出色的多模態內容審核能力。
方言支持成為另一大亮點。模型現已兼容39種中國方言與74種外語的語音識別,可合成7種方言及29種語言的語音輸出。在閩南語對話測試中,系統準確理解方言語義并生成地道語音回應,僅在極少數專業詞匯上自動切換普通話。配合實時網絡搜索功能,模型甚至能主動提供當日天氣等動態信息,整個交互過程延遲控制在1-2秒。
交互體驗實現質的飛躍。新模型引入語義打斷機制,允許用戶在系統"說話"時隨時插入新指令,模型可智能區分有效指令與背景噪音。通過整合端到端語音控制技術,用戶能直接調節輸出語音的音量、語速甚至情緒表達。更突破性的是音色克隆功能,用戶上傳30秒語音樣本后,模型即可復現該音色并完成多語言轉換,在交替傳譯場景中實現聲紋保持。
技術架構方面,Qwen3.5-Omni延續Thinker-Talker分工模式但進行全面升級。Thinker模塊采用混合注意力MoE架構,通過TMRoPE編碼技術實現長序列高效處理;Talker模塊引入RVQ編碼替代傳統DiT運算,配合ARIA自適應對齊技術,使語音合成穩定性提升40%。經基準測試,新模型在長音頻處理效率較前代提升3倍,音視頻理解任務響應速度加快2.5倍。
該模型已開放API調用服務,支持離線與實時兩種模式。定價體系采用階梯計費,128k以下輸入場景中,音頻處理價格為4.96元/百萬tokens,文本/圖像/視頻輸入為0.8元/百萬tokens。輸出端文本+音頻綜合價格為61.322元/百萬tokens,純文本輸出降至9.6元/百萬tokens。開發者可通過阿里云百煉平臺、魔搭社區及Hugging Face等渠道體驗模型能力。











