近日,一款名為Happy Horse 1.0的AI視頻生成模型正式開源,憑借其創(chuàng)新的視頻與音頻同步生成技術(shù),迅速在AI領(lǐng)域引發(fā)關(guān)注。該模型突破了傳統(tǒng)開源視頻生成工具的分步處理模式,將視頻與音頻的生成流程深度整合,實(shí)現(xiàn)了從文本或圖像輸入到帶聲音成片輸出的一站式服務(wù)。
傳統(tǒng)開源視頻模型通常采用"分步走"策略:先生成無聲視頻,再通過獨(dú)立音頻模型配音,最后用工具進(jìn)行口型對(duì)齊。這種模式不僅耗時(shí)較長,且各環(huán)節(jié)誤差會(huì)逐步累積。Happy Horse 1.0則通過統(tǒng)一的Transformer架構(gòu),將視頻像素與音頻波形數(shù)據(jù)作為同一序列處理,在單次前向推理中同步完成口型匹配、環(huán)境音效和腳步聲等細(xì)節(jié)生成,徹底消除了后期拼接需求。其核心創(chuàng)新在于將文本、圖像、視頻、音頻四種模態(tài)的token統(tǒng)一編碼,通過自注意力機(jī)制實(shí)現(xiàn)跨模態(tài)對(duì)齊。
該模型采用150億參數(shù)的純自注意力Transformer架構(gòu),刻意摒棄了交叉注意力機(jī)制和獨(dú)立音頻分支。其40層網(wǎng)絡(luò)呈現(xiàn)"三明治"結(jié)構(gòu):首尾各4層使用模態(tài)專屬投影層處理輸入輸出,中間32層共享參數(shù)完成跨模態(tài)推理。這種設(shè)計(jì)使參數(shù)效率提升40%,同時(shí)通過可學(xué)習(xí)的sigmoid門控機(jī)制穩(wěn)定多模態(tài)訓(xùn)練梯度,有效解決了音頻損失與視頻損失反向傳播時(shí)的沖突問題。
在效率優(yōu)化方面,開發(fā)團(tuán)隊(duì)引入DMD-2蒸餾技術(shù)將去噪步驟從常規(guī)的25-50步壓縮至8步,并取消無分類器引導(dǎo)(CFG)模塊,直接減少近半計(jì)算量。配合MagiCompiler全圖編譯運(yùn)行時(shí)技術(shù),在單張H100顯卡上生成1080p視頻僅需38秒,256p預(yù)覽版本更可在2秒內(nèi)完成。這種效率提升使其在同類模型中具有顯著競(jìng)爭(zhēng)優(yōu)勢(shì)。
語言支持方面,Happy Horse 1.0實(shí)現(xiàn)了英語、普通話、粵語、日語、韓語、德語、法語七種語言的原生唇形同步。其訓(xùn)練過程直接將語音時(shí)序、語調(diào)特征與視頻畫面聯(lián)合優(yōu)化,避免了傳統(tǒng)方法中后期貼片的生硬感。用戶可通過官網(wǎng)體驗(yàn)文本生成視頻和圖片生成視頻兩種模式,不同模型對(duì)生成時(shí)長存在差異化限制。
技術(shù)文檔顯示,該模型在架構(gòu)設(shè)計(jì)上追求極致簡潔,沒有設(shè)置專門的條件控制網(wǎng)絡(luò),而是通過統(tǒng)一的去噪流程讓模型自主學(xué)習(xí)模態(tài)間關(guān)系。這種設(shè)計(jì)哲學(xué)既降低了實(shí)現(xiàn)復(fù)雜度,也為后續(xù)擴(kuò)展更多模態(tài)留下了接口空間。目前開源版本已包含完整訓(xùn)練代碼和預(yù)訓(xùn)練權(quán)重,開發(fā)者可基于現(xiàn)有框架進(jìn)行二次開發(fā)。











