科技領域近日迎來一項重要突破,蘋果公司與特拉維夫大學聯合研發的“原則性粗粒度”(PCG)語音生成技術,為AI文本轉語音(TTS)領域帶來了新的解決方案。這項技術通過優化驗證機制,成功突破了傳統模型在生成速度上的瓶頸。
當前主流的TTS技術多采用自回歸模型,其工作原理類似于“逐字拼寫”——系統基于已生成的語音片段預測下一個音素。這種模式要求預測結果必須與預設值完全匹配,導致許多聽覺效果相近但未完全吻合的輸出被系統拒絕。這種嚴苛的驗證標準雖然保證了準確性,卻顯著降低了整體生成效率。
研究團隊提出的PCG技術通過引入“聲學相似組”概念,重構了驗證邏輯。該技術不再將每個語音單元視為獨立個體,而是將具有相似聽覺效果的音素歸為同一組別。只要預測結果落在正確組別范圍內,系統即判定為有效輸出。這種“范圍驗證”機制相比傳統的“單點驗證”,在保持音質的同時大幅提升了處理速度。
在技術實現層面,PCG采用雙模型協作架構:輕量級模型負責快速生成候選音素,大型“裁判模型”則負責質量把控。當候選音素屬于正確聲學組時,系統直接采用該結果。這種分工模式既保留了小模型的高效特性,又通過大模型確保了輸出質量,實現了效率與準確性的平衡。
實驗數據顯示,應用PCG技術后,語音生成速度提升約40%,而音質評分仍保持在4.09分(滿分5分)的高水平。在極端測試中,研究人員將91.4%的語音單元替換為同組其他音素,結果僅導致詞錯率微增0.007,說話人相似度下降0.027,這些變化幾乎無法被人類聽覺感知。
作為推理階段的優化方案,PCG技術無需重新訓練現有模型即可直接部署,僅需約37MB的額外內存用于存儲聲學相似組數據。這種輕量化特性使其具備廣泛的適用性,為語音合成技術的實際應用開辟了新路徑。











