滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

小米開源OmniVoice多語言TTS模型：超600種語言支持，語音克隆高效且自然

時間：2026-04-09 15:41:44 來源：互聯網編輯：快訊 IP：北京 發表評論無障礙通道

小米下一代 Kaldi 團隊（k2-fsa）近日正式開源了一款名為 OmniVoice 的超大規模多語言零樣本文本轉語音（TTS）模型。該模型支持超過 600 種語言，在中英文及多語言基準測試中多項關鍵指標達到行業領先水平，為語音合成領域帶來了重要突破。

在性能表現上，OmniVoice 展現出了顯著優勢。在 Seed-TTS 中文測試集中，其詞錯誤率（WER）低至 0.84%，而在多語言基準測試中，相似度（SIM-o）和詞錯誤率指標均超越了 ElevenLabs v2 和 MiniMax 等知名商用模型，語音自然度和清晰度表現尤為突出。

合成效率是 OmniVoice 的另一大亮點。該模型的實時因子（RTF）低至 0.025，合成速度比實時需求快 40 倍。這一特性使其能夠快速處理長文本語音生成任務，大幅提升用戶體驗，尤其適用于需要高效語音合成的應用場景。

OmniVoice 的核心架構采用了創新設計。其擴散語言模型風格的離散非自回歸架構，可直接從文本生成語音，跳過了傳統模型中復雜的中間語義 token 階段。這種設計不僅簡化了流程，還通過全碼本隨機掩碼策略和預訓練 LLM 初始化技術，進一步提升了訓練效率和語音輸出的清晰度與可懂度。

在語音克隆與定制方面，OmniVoice 提供了高度靈活的解決方案。用戶僅需提供 3-10 秒的短參考音頻，即可實現高品質的零樣本語音克隆。模型還支持通過自然語言描述自定義聲音屬性，包括性別、年齡、音調、口音和方言等，甚至能夠生成耳語等特殊語音效果。

針對中文及方言的精準合成需求，OmniVoice 特別優化了非語言符號處理和發音控制功能。模型能夠識別并處理如 [laughter] 這樣的非語言符號，同時支持通過拼音或音標進行發音糾正，確保語音合成的準確性。

OmniVoice 的最大特色在于其廣泛的語言覆蓋能力。從主流語種到眾多低資源語言，該模型均能高效支持。對于小語種和瀕危語言，僅需少量樣本即可生成高質量語音，這一特性為語言文化的數字化保護提供了有力支持。

目前，OmniVoice 的代碼和預訓練模型已在 GitHub 和 Hugging Face 平臺開源，開發者可以輕松進行本地部署或集成到各類應用中。項目地址：https://github.com/k2-fsa/OmniVoice

更多>同類資訊

AI聊天機器人“知識食糧”從哪來？研究發現近四分之一引言源自新聞報道

04-09

宇樹科技R1機器人亮相阿里園區攜手阿里跨境電商開啟出海新篇章

04-09

谷歌Gemini「notebooks」上線：讓AI擁有長效記憶，打造專屬知識工作空間

04-09

全球銷量前十智能手機iPhone占一半

04-09

華為余承東、何剛入駐小紅書

04-09

OpenAI擬向散戶開放IPO配售

04-09

宇樹最新款機器人R1現身阿里西溪園區，或將成立「樹賣通」項目

04-09

Google推進Gemini整合Gmail

04-09

從AI搜索引擎轉向AI 智能體：Perplexity AI月收入增長實現躍升

04-09

李佳琦深夜澄清：演講時口誤，是缺席兩個月直播

04-09

字節跳動估值飆升至6000億美元

04-09

2025年順豐財報透視：轉型期亮點與隱憂交織，未來路在何方？

04-09

降價派燒錢搶市場VS降耗派技術筑壁壘：大模型算力之爭誰主沉浮？

04-09

阿里“三權分立”式調整：借林俊旸離職契機，重構AI業務新版圖

04-09

聯想掌舵人楊元慶：從代碼世界追夢者到豪擲2億反哺母校的傳奇

04-09

點擊查看更多 +

全站最新

B站上線播放頁暫停廣告：商業化嘗試再引熱議，理想現實如何平衡？

字節跳動Seeduplex全雙工語音模型上線，豆包通話實現邊聽邊講更自然

A股鋁業股集體上漲，和勝股份漲停，明泰鋁業逼近漲停

A股異動丨中潤光學一度跌近8% 昨日盤中創歷史新高股東擬減持

巴基斯坦總理證實：美伊已同意在黎巴嫩及所有地區實施即刻停火

特朗普：《紐約時報》和CNN關于伊朗談判的十點計劃都是虛假報道

熱門內容

本欄最新

B站上線播放頁暫停廣告：商業化嘗試再引熱議，理想現實如何平衡？

字節跳動Seeduplex全雙工語音模型上線，豆包通話實現邊聽邊講更自然

微億智造沖刺IPO：大廠撤離高管涉訴，光環背后隱憂待解

小紅書深耕“好貨”生態：長效經營與線下聯動，激活消費新動能

2026年社交電商用戶達8.3億，Z世代成主力，內容驅動模式引領新消費趨勢

折扣市場成零售新寵：巨頭紛紛入局，消費趨勢轉變催生新機遇

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

小米開源OmniVoice多語言TTS模型：超600種語言支持，語音克隆高效且自然