千問團隊近日宣布,其自主研發的Qwen3-TTS多碼本全系列語音生成模型正式開源,包含1.7B參數和0.6B參數兩個版本。其中1.7B版本在性能表現上達到行業頂尖水平,0.6B版本則實現了性能與效率的平衡優化。該系列模型已通過GitHub平臺開放下載,同時提供Qwen API接口供開發者體驗。
作為新一代語音生成技術,Qwen3-TTS突破性地采用離散多碼本語言模型架構,通過自研的Qwen3-TTS-Tokenizer-12Hz語音編碼器,實現了對語音信號的高效壓縮與語義建模。該技術不僅完整保留了語氣、語調等副語言信息,還能在非擴散變換器(非DiT)架構下完成高保真語音重建。實驗數據顯示,其端到端合成延遲最低可達97毫秒,支持在輸入單個字符后立即生成音頻流。
在功能實現方面,該模型系列展現出三大核心優勢:其一,支持跨語言音色克隆與創造,覆蓋中、英、日、韓等十種主流語言及多種方言;其二,具備智能語音控制能力,可通過自然語言指令調節音色、情感、節奏等參數;其三,創新采用Dual-Track雙軌建模技術,使單個模型同時兼容流式與非流式生成模式。特別在長語音生成場景中,模型可一次性合成10分鐘音頻,中英文混合語料的詞錯率分別控制在2.36%和2.81%。
技術評估顯示,Qwen3-TTS在多個專項任務中達到國際領先水平。在音色創造任務中,其VoiceDesign模塊在指令遵循準確率和生成表現力方面超越MiniMax閉源模型;在音色控制任務中,Instruct模塊取得75.4%的評估分數,同時保持2.34%的平均詞錯率;在跨語言音色克隆任務中,VoiceClone模塊在10個語種測試集中取得1.835%的平均詞錯率和0.789的說話人相似度。這些指標均優于同期發布的CosyVoice3等開源模型。
語音編碼器的性能驗證同樣亮眼。在LibriSpeech標準測試集中,Qwen-TTS-Tokenizer的感知語音質量評估(PESQ)得分達寬帶3.21/窄帶3.68,短時客觀可懂度(STOI)達0.96,語音質量評估(UTMOS)達4.16,說話人相似度評估達0.95。這些數據表明,該編碼器在語音重構質量、信息保留完整度等關鍵指標上均處于行業前沿。
目前,開發者可通過GitHub獲取完整模型代碼與訓練數據集,或直接調用Qwen API進行快速集成。該系列模型的開源將顯著降低語音生成技術的研發門檻,為智能客服、有聲內容制作、無障礙交互等領域提供新的技術解決方案。據團隊透露,后續將持續優化模型在低資源設備上的部署效率,并擴展更多語言的支持能力。












