岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear旗下自媒體矩陣：

滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內(nèi)容

蘋果攜手人大創(chuàng)新突破：VSSFlow模型實現(xiàn)無聲視頻一鍵生成逼真音效與語音

時間：2026-02-10 15:17:58 來源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評論無障礙通道

蘋果公司與中國人民大學聯(lián)合研發(fā)的VSSFlow人工智能模型，近日在音頻生成領(lǐng)域?qū)崿F(xiàn)重大突破。該模型通過創(chuàng)新性的技術(shù)架構(gòu)，成功解決了傳統(tǒng)方案中環(huán)境音效與語音生成難以兼顧的難題，能夠在單一系統(tǒng)內(nèi)同時生成與視頻畫面高度匹配的背景音和清晰人聲。

傳統(tǒng)音頻生成技術(shù)存在顯著短板：視頻轉(zhuǎn)聲音模型（V2S）雖能捕捉環(huán)境聲卻難以生成清晰語音，文本轉(zhuǎn)語音模型（TTS）雖可輸出標準人聲卻無法處理復雜環(huán)境噪音。此前行業(yè)普遍采用分階段訓練方案，將兩類模型串聯(lián)使用，但這種架構(gòu)不僅增加系統(tǒng)復雜度，更因任務沖突導致性能損耗。VSSFlow團隊通過10層神經(jīng)網(wǎng)絡架構(gòu)與"流匹配"技術(shù)的結(jié)合，使模型具備從隨機噪聲中自主重構(gòu)目標聲音信號的能力。

研發(fā)過程中，團隊意外發(fā)現(xiàn)聯(lián)合訓練帶來的協(xié)同效應。當模型同時接觸包含環(huán)境音的視頻、帶字幕的說話視頻及純文本語音數(shù)據(jù)時，語音訓練數(shù)據(jù)顯著提升了環(huán)境音效的生成質(zhì)量，而環(huán)境音效數(shù)據(jù)則優(yōu)化了語音的自然度。這種數(shù)據(jù)融合訓練方式，使模型能夠精準區(qū)分不同聲音元素的生成邏輯。

在實際運行中，VSSFlow采用雙軌處理機制：以每秒10幀的速率提取視頻中的視覺特征作為環(huán)境音效生成依據(jù)，同時通過文本腳本解析控制語音輸出的內(nèi)容與節(jié)奏。這種設計使模型既能生成雨聲、腳步聲等細節(jié)豐富的環(huán)境音，又能保持對話語音的清晰度和情感表達。

第三方測試數(shù)據(jù)顯示，VSSFlow在環(huán)境音自然度、語音清晰度、音畫同步率等核心指標上，均超越專門針對單一任務設計的競品模型。目前研發(fā)團隊已將完整代碼開源至GitHub平臺，并正在籌備模型權(quán)重公開及在線演示系統(tǒng)的開發(fā)工作。這項技術(shù)有望為影視制作、游戲開發(fā)、虛擬現(xiàn)實等領(lǐng)域提供更高效的音頻生成解決方案。

02-10

專訪ALLIN科技章總：筑牢算力根基共繪AI產(chǎn)業(yè)高質(zhì)量發(fā)展新藍圖

作為立足全球的科技創(chuàng)新企業(yè)，ALLIN科技自布局科創(chuàng)領(lǐng)域以來，始終聚焦核心賽道，在人工智能底層技術(shù)領(lǐng)域深耕不輟，此次受邀訪談，章總首先清晰闡釋了企業(yè)的核心定位，破解了大眾對“算力基礎設施建設”的認知壁壘。 …

02-10

快消品企業(yè)借電商AI大模型之力，解鎖智能零售新未來

快消品企業(yè)可以建立專門負責AI技術(shù)研究和應用的團隊，包括數(shù)據(jù)分析師、算法工程師、產(chǎn)品經(jīng)理等角色。在這個過程中，企業(yè)需要結(jié)合自身實際情況和未來發(fā)展方向制定切實可行的落地策略并持續(xù)優(yōu)化和創(chuàng)新，以確保電商AI大模型…

02-10

機器人手術(shù)優(yōu)勢何在？劉合利主任揭秘：術(shù)后疼痛明顯減輕

手術(shù)以后，痛覺肯定會減輕一些，因為病人的痛覺，它主要是在腹腔內(nèi)，如果是沒有并發(fā)癥，出血也少，恢復又很正常的話，它不會很疼的。但切口又小的話，掌握這個切口方向的話，疼痛會減輕一些。現(xiàn)在即使疼痛的話，現(xiàn)在有一些（…

02-10

極智嘉全球首推通用倉儲機器人Gino 1，開啟倉儲操作智能化新篇章

其具身大腦 Geek+ Brain 深度融合了極智嘉多年積累的海量倉儲數(shù)據(jù)，并結(jié)合大規(guī)模仿真強化學習，讓Gino 1具備類人的通用操作能力，能夠從事倉儲揀貨、搬箱、打包、巡檢等多任務，真正實現(xiàn)了“一臺機器人覆…

02-10

杭州以勒咖啡機工廠探秘：以創(chuàng)新為鑰解鎖智慧終端新未來

強大的自有生產(chǎn)能力，確保了產(chǎn)品從設計圖紙到實體產(chǎn)品的精準轉(zhuǎn)化和品質(zhì)可控，這是實現(xiàn)一切創(chuàng)新的物質(zhì)基礎。答：這正體現(xiàn)了其ODM/OEM定制服務與模塊化研發(fā)的優(yōu)勢。在這里，咖啡機不再是簡單的廚房電器或商用工具，而…

02-10

杭州以勒：從制造到智造，解鎖咖啡機源頭工廠技術(shù)突破新路徑

杭州以勒上云機器人科技有限公司成立于2007年11月，是一家集研發(fā)、生產(chǎn)、銷售、服務為一體的國家高新技術(shù)企業(yè)。綜上所述，以勒咖啡機的技術(shù)突破之路，是一條整合了持續(xù)研發(fā)、精密制造、智能物聯(lián)、柔性定制和前瞻探…

02-10

2026年開篇布局！中國移動以算力與數(shù)智雙輪驅(qū)動開啟改革新征程

在此背景下，機構(gòu)調(diào)整成為戰(zhàn)略落地的重要舉措：算力專項辦公室的設立，能夠統(tǒng)籌全集團算力資源，避免重復投資與資源內(nèi)耗；數(shù)智事業(yè)部的改組，則是為了通過整合原數(shù)智部的統(tǒng)籌能力與九天公司的AI技術(shù)實力，實現(xiàn)“AI+通…

02-10

AI新紀元開啟！質(zhì)變科技MemoryLake上線，以“記憶”之力重塑智能決策未來

02-10

OpenAI發(fā)展勢頭迅猛：ChatGPT用戶激增，新模型將至，Codex拓展新場景

02-10

估值暴漲至230億美元！Cerebras憑晶圓級芯片牽手OpenAI叫板NVIDIA

02-10

廣汽集團2025年逆勢破局，2026年以改革科技雙輪驅(qū)動再攀高峰

02-10

中國移動2026年機構(gòu)改革啟幕：算力與數(shù)智雙輪驅(qū)動開啟轉(zhuǎn)型新篇章

02-10

寶馬2026年發(fā)力中國市場：新世代iX3國產(chǎn)，20款新品矩陣來襲

02-10

AI智能體需求“海嘯”來襲，企業(yè)數(shù)據(jù)基礎設施面臨嚴峻挑戰(zhàn)

企業(yè)數(shù)據(jù)庫歷史上以"每10年增長10倍多一點"的可控速度擴展，但AI時代將顯著壓縮這一時間線。36%的人說云基礎設施或服務提供商將是第一個故障點，但數(shù)據(jù)庫層以30%排在第二位。金博爾說，這種脫節(jié)可能使組織對…

02-10

點擊查看更多 +

全站最新

新一代小米SU7升級亮點多：續(xù)航提升、電機換新、智駕與舒適性再進階

24小時環(huán)球政經(jīng)要聞全覽 | 2月10日

借100年才還？Alphabet發(fā)債200億押注AI，推出罕見“世紀債”

A股黃金概念股集體下跌，白銀有色跌超4%

A股銀行股普漲，建設銀行、交通銀行續(xù)漲超1%

澳股收漲0.19%

熱門內(nèi)容

本欄最新

廣汽集團2025年逆勢破局，2026年以改革科技雙輪驅(qū)動再攀高峰

寶馬2026年發(fā)力中國市場：新世代iX3國產(chǎn)，20款新品矩陣來襲

AI智能體需求“海嘯”來襲，企業(yè)數(shù)據(jù)基礎設施面臨嚴峻挑戰(zhàn)

時代智能攜手地平線，軟硬協(xié)同共探新能源汽車智能化新路徑

寒假新體驗！湖北省科技館攜手特斯拉，引領(lǐng)青少年探索科技新世界

科技豪華雙引領(lǐng)！騰勢D9三連冠重塑全球高端MPV市場新格局

本網(wǎng)站LOGO小熊標志受版權(quán)保護，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) 魯ICP備11015305號-1 聯(lián)系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.