近日,語音生成領(lǐng)域迎來重要進(jìn)展,Qwen3-TTS全家桶正式開源上線,為開發(fā)者與用戶帶來功能全面的語音生成解決方案。該系列模型由Qwen團(tuán)隊開發(fā),支持音色克隆、音色創(chuàng)造、超高質(zhì)量擬人化語音生成,以及基于自然語言描述的語音控制,覆蓋從創(chuàng)作到應(yīng)用的完整需求。
技術(shù)層面,Qwen3-TTS通過創(chuàng)新的多碼本語音編碼器Qwen3-TTS-Tokenizer-12Hz,實現(xiàn)了對語音信號的高效壓縮與精準(zhǔn)表征。這一設(shè)計不僅完整保留了副語言信息(如語調(diào)、重音)和聲學(xué)環(huán)境特征,還通過輕量級非DiT架構(gòu)實現(xiàn)高速、高保真的語音還原。其Dual-Track雙軌建模技術(shù)進(jìn)一步優(yōu)化了生成效率,首包音頻的響應(yīng)時間縮短至僅需一個字符的輸入,顯著提升了實時交互體驗。
開源模型包含1.7B和0.6B兩種參數(shù)規(guī)模,滿足不同場景需求。1.7B版本以極致性能見長,具備強(qiáng)大的控制能力,可精準(zhǔn)匹配復(fù)雜指令;0.6B版本則在性能與效率間取得平衡,適合資源受限的輕量化應(yīng)用。模型支持10種主流語言(包括中文、英文、日語、韓語等)及多種方言音色,覆蓋全球用戶需求,為跨語言應(yīng)用提供技術(shù)支撐。
在功能擴(kuò)展上,Qwen3-TTS展現(xiàn)出強(qiáng)大的上下文適應(yīng)能力。模型可根據(jù)文本語義和用戶指令動態(tài)調(diào)整語氣、節(jié)奏與情感表達(dá),例如將陳述句轉(zhuǎn)化為疑問語氣,或通過語速變化傳遞緊迫感。其對輸入文本噪聲(如錯別字、標(biāo)點缺失)的魯棒性顯著提升,確保在非理想條件下仍能生成穩(wěn)定、自然的語音輸出。目前,該系列模型已通過GitHub開源,并開放Qwen API接口供開發(fā)者快速集成。








