近日,一款名為Qwen3-TTS的全系列語音生成模型正式開源上線,為全球語音技術(shù)應(yīng)用領(lǐng)域帶來新的突破。該模型由專業(yè)團(tuán)隊(duì)精心研發(fā),推出1.7B和0.6B兩種不同尺寸版本,其中1.7B版本側(cè)重于追求極致性能與強(qiáng)大控制能力,0.6B版本則更注重平衡性能與效率,以滿足不同場(chǎng)景下的應(yīng)用需求。
Qwen3-TTS具備強(qiáng)大的多語言支持能力,涵蓋中文、英文、日語、韓語、德語、法語等10種主流語言,同時(shí)還支持多種方言音色,能夠充分滿足全球范圍內(nèi)的多樣化應(yīng)用需求。在功能方面,該模型全面支持音色克隆、音色創(chuàng)造以及超高質(zhì)量的擬人化語音生成。用戶可以通過自然語言指令輕松驅(qū)動(dòng)語音生成過程,靈活調(diào)控音色、情感、韻律等聲學(xué)屬性,實(shí)現(xiàn)個(gè)性化的語音輸出。
值得一提的是,Qwen3-TTS擁有出色的上下文理解能力。它能夠根據(jù)指令和文本語義自適應(yīng)地調(diào)整語氣、節(jié)奏與情感表達(dá),即使在輸入文本存在噪聲的情況下,也能保持較高的魯棒性,確保生成語音的質(zhì)量和穩(wěn)定性。這一特性使得該模型在實(shí)際應(yīng)用中更加可靠,能夠適應(yīng)各種復(fù)雜的環(huán)境和場(chǎng)景。
在技術(shù)架構(gòu)上,Qwen3-TTS采用了創(chuàng)新的Dual-Track混合流式生成架構(gòu)。這一架構(gòu)使得單模型能夠同時(shí)兼容流式與非流式生成,大大提高了生成效率。在實(shí)際應(yīng)用中,最快可在輸入單字后即刻輸出音頻首包,端到端合成延遲低至97ms,完全能夠滿足實(shí)時(shí)交互的需求,為用戶帶來更加流暢、自然的語音交互體驗(yàn)。
在性能表現(xiàn)方面,Qwen3-TTS系列模型也展現(xiàn)出了卓越的實(shí)力。Qwen3-TTS-VoiceDesign在InstructTTS-eval評(píng)測(cè)中,指令遵循能力和表現(xiàn)力超越了MiniMax-Voice-Design和其他開源模型,彰顯了其在語音生成領(lǐng)域的領(lǐng)先地位。Qwen3-TTS-Instruct具備單人多語言泛化能力,平均詞錯(cuò)率僅為2.34%,同時(shí)能夠保持出色的音色風(fēng)格控制能力,在InstructTTS-eval評(píng)測(cè)中得分達(dá)到75.4%,并且在長(zhǎng)語音生成方面表現(xiàn)卓越,10分鐘語音中英詞錯(cuò)率分別為2.36%和2.81%。Qwen3-TTS-VoiceClone在中英文克隆穩(wěn)定性、多語種測(cè)試集平均詞錯(cuò)誤率和說話人相似度等關(guān)鍵指標(biāo)上,也超越了MiniMax和ElevenLabs等知名模型。











