針對(duì)AI語(yǔ)音合成領(lǐng)域長(zhǎng)期存在的效率瓶頸,蘋果公司近日聯(lián)手特拉維夫大學(xué)發(fā)表了一項(xiàng)名為“原則性粗粒度”(PCG)的創(chuàng)新研究。這項(xiàng)技術(shù)通過(guò)改變AI對(duì)聲音預(yù)測(cè)的驗(yàn)證方式,成功實(shí)現(xiàn)了在保證音質(zhì)“零損耗”的前提下,將語(yǔ)音生成速度提升了約40%。
目前主流的文本轉(zhuǎn)語(yǔ)音(TTS)模型大多采用“自回歸”機(jī)制,即像串珠子一樣逐個(gè)預(yù)測(cè)接下來(lái)的聲音片段。然而,這種模式對(duì)結(jié)果要求極其刻板,模型往往會(huì)因?yàn)轭A(yù)測(cè)結(jié)果與預(yù)設(shè)數(shù)據(jù)存在極微小的聽(tīng)感差異而強(qiáng)行糾錯(cuò),這不僅消耗了大量算力,更嚴(yán)重拖慢了生成速度。
蘋果研究團(tuán)隊(duì)提出的PCG技術(shù)打破了這一僵局。該技術(shù)的核心邏輯在于“求同存異”:研究人員發(fā)現(xiàn),許多細(xì)微差異的聲音片段在人類聽(tīng)覺(jué)中幾乎完全一致。因此,PCG引入了“聲學(xué)相似組”概念,將傳統(tǒng)的“精確點(diǎn)驗(yàn)證”升級(jí)為“范圍驗(yàn)證”。只要AI生成的預(yù)測(cè)值落在合理的聲學(xué)范圍內(nèi),系統(tǒng)就會(huì)直接予以采納。
在實(shí)際測(cè)試中,PCG表現(xiàn)驚人。即使將91.4%的語(yǔ)音片段替換為同組相似音,人耳也幾乎無(wú)法察覺(jué)差異,模型自然度評(píng)分高達(dá)4.09分。PCG作為一種“推理階段”的優(yōu)化方案,無(wú)需對(duì)現(xiàn)有模型進(jìn)行重新訓(xùn)練,且僅需額外占用約37MB內(nèi)存,這為未來(lái)在各種移動(dòng)終端上普及高質(zhì)量、低延遲的AI語(yǔ)音服務(wù)鋪平了道路。
劃重點(diǎn):










