AIPress.com.cn報道
2月6日消息,YouTube 近日宣布,已對其自動化 AI 配音功能進行升級,新增名為“Expressive Speech(情緒化語音)”的表達能力,支持英語、法語、德語、印地語、印尼語、意大利語、葡萄牙語和西班牙語八種語言。
該功能旨在改善此前 AI 配音“語調生硬、缺乏情緒”的問題。YouTube 的自動 AI 配音功能自 2025 年 6 月起向數百萬創作者自動開放,但上線初期因配音聽感偏“機器人化”,曾引發創作者和用戶的廣泛爭議。
YouTube 配音產品負責人Buddhika Kottahachchi表示,Expressive Speech 功能由 YouTube 與Google DeepMind聯合研發,通過分析原始視頻中的音高、語調、節奏和能量等特征,并將這些元素映射到自動配音中,使配音效果更加自然、真實,更接近人類表達方式。
除語音表現升級外,YouTube 還同步推出了Automatic Smart Filtering(自動智能過濾)功能,用于識別不適合進行 AI 配音的視頻內容,例如純音樂視頻或無對白的 Vlog,從而避免不必要的自動配音,提升整體體驗。
在可發現性方面,YouTube 表示,AI 配音不會影響原始視頻在平臺內的推薦與搜索表現,同時有助于視頻在其他語言用戶中的曝光和發現。
考慮到部分用戶對自動配音的偏好差異,YouTube 也引入了Preferred Language(偏好語言)設置,允許觀眾選擇始終以原始語言觀看視頻,而不默認切換至 AI 配音版本。平臺也進一步強化創作者控制權,支持創作者自行上傳多語言音軌,替代或補充 AI 配音。
YouTube 表示,此次更新是其“賦予創作者充分自主權”承諾的一部分,在擴展 AI 能力的同時,保留人工干預和選擇空間。
數據顯示,當前自動配音視頻的平均觀看時長約為原語言視頻的75%,表明非母語觀眾對自動配音內容具有較高的參與度。
Kottahachchi 還透露,YouTube 計劃在未來將 Expressive Speech 功能擴展至更多語言,并推進自動口型同步(lip sync)技術,該功能目前已進入小范圍創作者測試階段。(AI普瑞斯編譯)











