小米下一代 Kaldi 團隊(k2-fsa)近日正式開源了一款名為 OmniVoice 的超大規模多語言零樣本文本轉語音(TTS)模型。該模型支持超過 600 種語言,在中英文及多語言基準測試中多項關鍵指標達到行業領先水平,為語音合成領域帶來了重要突破。
在性能表現上,OmniVoice 展現出了顯著優勢。在 Seed-TTS 中文測試集中,其詞錯誤率(WER)低至 0.84%,而在多語言基準測試中,相似度(SIM-o)和詞錯誤率指標均超越了 ElevenLabs v2 和 MiniMax 等知名商用模型,語音自然度和清晰度表現尤為突出。
合成效率是 OmniVoice 的另一大亮點。該模型的實時因子(RTF)低至 0.025,合成速度比實時需求快 40 倍。這一特性使其能夠快速處理長文本語音生成任務,大幅提升用戶體驗,尤其適用于需要高效語音合成的應用場景。
OmniVoice 的核心架構采用了創新設計。其擴散語言模型風格的離散非自回歸架構,可直接從文本生成語音,跳過了傳統模型中復雜的中間語義 token 階段。這種設計不僅簡化了流程,還通過全碼本隨機掩碼策略和預訓練 LLM 初始化技術,進一步提升了訓練效率和語音輸出的清晰度與可懂度。
在語音克隆與定制方面,OmniVoice 提供了高度靈活的解決方案。用戶僅需提供 3-10 秒的短參考音頻,即可實現高品質的零樣本語音克隆。模型還支持通過自然語言描述自定義聲音屬性,包括性別、年齡、音調、口音和方言等,甚至能夠生成耳語等特殊語音效果。
針對中文及方言的精準合成需求,OmniVoice 特別優化了非語言符號處理和發音控制功能。模型能夠識別并處理如 [laughter] 這樣的非語言符號,同時支持通過拼音或音標進行發音糾正,確保語音合成的準確性。
OmniVoice 的最大特色在于其廣泛的語言覆蓋能力。從主流語種到眾多低資源語言,該模型均能高效支持。對于小語種和瀕危語言,僅需少量樣本即可生成高質量語音,這一特性為語言文化的數字化保護提供了有力支持。
目前,OmniVoice 的代碼和預訓練模型已在 GitHub 和 Hugging Face 平臺開源,開發者可以輕松進行本地部署或集成到各類應用中。項目地址:https://github.com/k2-fsa/OmniVoice









