岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear旗下自媒體矩陣:

蘋果聯合人大發布VSSFlow模型:視頻AI同步生成配音

   時間:2026-02-10 16:51:56 來源:IT之家編輯:快訊 IP:北京 發表評論無障礙通道
 

2 月 10 日消息,科技媒體 9to5Mac 昨日(2 月 9 日)發布博文,報道稱蘋果公司攜手中國人民大學(簡稱人大),推出 VSSFlow 新型 AI 模型,突破了傳統音頻生成技術的瓶頸,僅需單一系統即可從無聲視頻中同時生成逼真的環境音效與人類語音。

該模型的核心能力在于“化靜為動”,能夠直接處理無聲視頻數據,在單一系統的框架下,同步生成與畫面高度匹配的環境音效以及精準的語音對話。該成果不僅解決了過去音頻生成模型功能單一的問題,更在生成質量上達到了行業領先水平。

援引博文介紹,在 VSSFlow 問世之前,行業內的模型往往存在嚴重的偏科現象:視頻轉聲音模型(V2S)難以生成清晰的語音,而文本轉語音模型(TTS)又無法處理復雜的環境噪音。

傳統的解決方案通常是將兩者分階段訓練,這不僅增加了系統的復雜性,還常因任務沖突導致性能下降。VSSFlow 則另辟蹊徑,采用了 10 層架構設計并引入“流匹配”技術,讓模型自主學習如何從隨機噪聲中,重構出目標聲音信號。

研究團隊在訓練過程中發現了一個令人驚喜的現象:聯合訓練不僅沒有導致任務干擾,反而產生了“互助效應”。即語音數據的訓練提升了音效生成的質量,而音效數據的加入也優化了語音的表現。

團隊為了實現這一效果,向模型投喂了混合數據,包括配有環境音的視頻、配有字幕的說話視頻以及純文本轉語音數據,并利用合成樣本微調模型,讓其學會同時輸出背景音與人聲。

在實際運行中,VSSFlow 以每秒 10 幀的頻率從視頻中提取視覺線索來塑造環境音效,同時依據文本腳本精確引導語音生成。

測試數據顯示,該模型在多項關鍵指標上均優于專門針對單一任務設計的競品模型。研究團隊目前已在 GitHub 上開源了 VSSFlow 的代碼,并正在推進模型權重公開及在線推理演示的開發工作。

 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 欧美第四页 | 免费毛片a | 免费成人深夜夜行网站 | 国产精品毛片va一区二区三区 | 国产精品久久久久久免费播放 | 欧美日本激情 | 亚欧视频在线 | √天堂8资源中文在线 | av高清一区二区 | 四库影院在线观看 | 亚洲网在线 | 日韩中文字幕有码 | 免费成年人视频 | 亚洲九九夜夜 | 在线观看的av网址 | 成人免费毛片入口 | 麻豆国产原创 | 国产美女www爽爽爽 日韩专区一区 | 欧美一级黄 | 国产最新精品 | 国产一区二区三区在线免费观看 | 国产经典一区二区三区 | 日日摸日日干 | www.99re7| 欧美 日本 国产 | www久久com| 色爱综合 | 欧美一区二区三区不卡 | 四虎精品永久在线 | 成人综合在线观看 | 国产 中文 字幕 日韩 在线 | 国产乱码精品一品二品 | 97青草| 久久精品3 | 超碰免费观看 | 色吧av| 一二三四国产精品 | 欧美不卡在线 | 日韩黄色一级 | 日韩精品视频免费在线观看 | 色婷婷九月 |