“快樂馬”后發(fā)趕超,阿里截胡快手字節(jié)。
采寫/陸小鹿
編輯/陳紀(jì)英
4月14日,字節(jié)跳動旗下火山引擎正式上線Seedance2.0 系列API服務(wù),企業(yè)和個人用戶都可調(diào)用其視頻生成能力。
早期,上述服務(wù)需要高額預(yù)付、動輒千萬級“最低消耗”。
算力足夠的情況下,API大面積開放幾乎算是大模型商業(yè)化的主引擎。但有意思的是,近期被不少用戶詬病排隊(duì)時間長、變相漲價背刺用戶的Seedance2.0,怎么突然就全面開放API了呢?
這背后,或許有上周爆火的HappyHorse的推動。
4月7日,HappyHorse以匿名身份空降權(quán)威AI平臺Video Arena盲測榜單上。在圖生視頻(無音頻)榜單上,它拿到1411分登頂,把Seedance 2.0甩出約55分;在文生視頻(無音頻)一欄,1379分同樣排在字節(jié)跳動Seedance 2.0、快手可靈AI 3.0、昆侖萬維SkyReels V4等公開產(chǎn)品前。
三天之后,阿里官方出面認(rèn)領(lǐng)了這匹“千里馬”。
今年3月34日, OpenAI 宣布關(guān)停 Sora,所有人都以為,Seedance 2.0 要在AI視頻生成模型領(lǐng)域一統(tǒng)天下,阿里卻出其不意,截胡字節(jié)Seedance與快手可靈。
AI視頻生成模型這一賽道,三國殺格局雛形初顯,而且中國公司在全球拿下了主導(dǎo)權(quán)。
一
OpenAI退場,中國大廠上位
2024年以來,AI視頻生成模型之所以能實(shí)現(xiàn)從“玩具”到“工具”的質(zhì)變,其核心驅(qū)動力在于底層技術(shù)范式的根本性轉(zhuǎn)變——從基于海量數(shù)據(jù)統(tǒng)計的模式匹配,升級為對物理世界規(guī)律進(jìn)行模擬與理解的“世界模型”。這一轉(zhuǎn)變解決了此前技術(shù)無法逾越的兩大鴻溝,即物理合理性與長期一致性。其中,長期一致性更是實(shí)現(xiàn)影視級應(yīng)用的前提。
據(jù)媒體報道,HappyHorse用一個統(tǒng)一的Transformer同時處理視頻和音頻,一次推理直接輸出帶聲音的成片,不需要后期拼接。這種有點(diǎn)特別的技術(shù)架構(gòu)(單流Transformer架構(gòu)),對提升長期一致性很有優(yōu)勢。
統(tǒng)一的Transformer直接處理長序列的混合Token,其自注意力機(jī)制能夠捕捉視頻幀與音頻幀之間長距離的依賴關(guān)系。
這比用多個獨(dú)立模型分別處理再協(xié)調(diào)要簡單直接,減少了信息在模塊間傳遞的損耗,理論上更有利于維持長時序的連貫敘事。
根據(jù)Artificial Analysis的評測指標(biāo)(滿分5分),HappyHorse在物理一致性方面得分為4.52,視覺質(zhì)量得分為4.80,文本對齊得分為4.18。這表明其在基礎(chǔ)一致性方面表現(xiàn)良好,但在復(fù)雜場景下的長期一致性仍有提升空間。
不過參考Sora的經(jīng)驗(yàn)可知,長期一致性表現(xiàn)好≠商業(yè)可用性表現(xiàn)好。
根據(jù)央視財經(jīng)的報道,Sora在實(shí)際應(yīng)用中,其長期一致性高度依賴大模型的“記憶”能力, 商業(yè)可用率極低,僅5%-10%的生成視頻能用于初步篩選,更像一個不可控的“抽卡游戲”。
Sora的關(guān)停,也并非源于技術(shù)升級的困難,而是一筆算不過來的經(jīng)濟(jì)賬。據(jù)Appfigures估算,Sora上線以來的應(yīng)用程序內(nèi)總收入僅約210萬美元,投入產(chǎn)出比接近2500:1,堪稱AI史上最昂貴的“技術(shù)煙花”。
硅谷風(fēng)投機(jī)構(gòu)a16z合伙人Olivia Moore曾在社交媒體曬出SensorTower的監(jiān)測截圖,顯示Sora APP的30天用戶留存率為1%,60天留存率0%。如此低的留存率,顯然不符合商業(yè)應(yīng)用的要求。
AI發(fā)展到了今天,資本對無法變現(xiàn)、耗資巨大的技術(shù)突破態(tài)度已經(jīng)足夠理智,甚至是冷酷了。所以,正在籌備上市的OpenAI只能關(guān)停Sora,并退回和迪士尼的10億美元合作款項(xiàng)。
而且OpenAI也需要集中精力繼續(xù)推進(jìn)世界模型的研發(fā)。畢竟從某種意義上來說,并不存在單獨(dú)的視頻大模型,視頻大模型更像是是世界模型和多模態(tài)技術(shù)融合進(jìn)程中的階段性里程碑。
目前頂級的視頻模型幾乎都基于DiT架構(gòu),這個架構(gòu)的前身是圖像生成 Diffusion,下一步很可能就是Omni-Model。視頻只是這些模型在時間維度上插了幀,并在數(shù)據(jù)清洗時喂入了大量物理世界因果片段。
做視頻,是驗(yàn)證時空預(yù)測能力的最低門檻。能做出視頻大模型的公司,理論上也可以把這種技術(shù)用來研發(fā)其他垂直領(lǐng)域的大模型——如果有足夠多優(yōu)質(zhì)的真實(shí)數(shù)據(jù)用來訓(xùn)練。
阿里的目標(biāo),顯然也不只是做出一個受歡迎的視頻生成工具。
二
AI視頻大有潛力
視頻是AI大模型很好的垂直應(yīng)用方向,因?yàn)閺牧髁窟壿嬁矗曨l是AI目前唯一能無縫嵌入娛樂、社交、電商三大現(xiàn)金牛領(lǐng)域的模態(tài)。
ChatGPT(文本)的月活是億級,TikTok(視頻)的日活是十億級。人類天生就懶于閱讀文字,樂于消費(fèi)視頻。字節(jié)能深入所有互聯(lián)網(wǎng)巨頭的業(yè)務(wù)腹地,也是因?yàn)樗プ×艘曨l這個關(guān)鍵點(diǎn)。
抖音上的視頻流數(shù)據(jù),涵蓋人物行為、物體運(yùn)動、場景交互等多維度的動態(tài)信息,每一幀都是真實(shí)世界規(guī)律的記錄。用這種優(yōu)質(zhì)數(shù)據(jù)訓(xùn)練出的垂直應(yīng)用AI,很容易就贏在起跑線上。
根據(jù)極客公園測算,Seedance2.0生成15秒視頻的可用率或達(dá)到90%,相較此前行業(yè)內(nèi)大概20%的平均值,提升幅度較大。技術(shù)實(shí)力與商業(yè)可用性的雙重提升,讓Seedance2.0的爆火很容易理解。
而且Seedance 2.0的商業(yè)化推進(jìn),節(jié)奏感極強(qiáng)。先用“寵物貓狗暴揍哥斯拉”等病毒式模板引爆社交媒體的全民二創(chuàng)熱潮,完成零成本的流量引爆和用戶教育,在口碑和需求雙雙達(dá)到頂峰后,立即啟動商業(yè)化變現(xiàn)。
3月4日,火山引擎公布商用定價:包含視頻輸入的場景28元/百萬tokens,不含視頻輸入46元/百萬tokens,折合純視頻生成成本約0.95元/秒。
緊接著,字節(jié)采取差異化定價面向市場、降低門檻開放公測的策略,于4月2日正式面向企業(yè)用戶開放API申請。至此,Seedance2.0完成了從網(wǎng)紅AI玩具到企業(yè)生產(chǎn)工具的身份躍遷。
這也驗(yàn)證了AI產(chǎn)業(yè)投資邏輯的變化,無論是公司內(nèi)部的資金還是外部的資金,都會流向更能垂直應(yīng)用、快速變現(xiàn)、貢獻(xiàn)ROI的地方。B端和C端的用戶在付費(fèi)時,也同樣遵從這個底層邏輯。
一個值得注意的細(xì)節(jié)是,HappyHorse原生支持英語、普通話、粵語、日語、韓語、德語、法語的唇形同步,這很可能是為了讓HappyHorse生成的視頻能進(jìn)入到電商(包括跨境電商)等實(shí)際應(yīng)用場景中。
畢竟張迪作為快手可靈和阿里HappyHorse之父,不僅懂技術(shù),也很懂業(yè)務(wù)(這一點(diǎn)從他的職業(yè)履歷就能看出),天然就擅長把業(yè)務(wù)思維帶入到HappyHorse的技術(shù)研發(fā)中。
一個佐證是,快手可靈的商業(yè)化效果已經(jīng)有了財報數(shù)據(jù)支撐。2025年第四季度,可靈AI營業(yè)收入達(dá)到3.4億元;2025年12月單月收入突破2000萬美元,年化收入運(yùn)行率(ARR)達(dá)到2.4億美元。
而且,HappyHorse所屬的阿里ATH創(chuàng)新事業(yè)部,早已喊出“創(chuàng)造Token、輸送Token、應(yīng)用Token”的口號。這種以“Token消耗量”為核心KPI的組織設(shè)計,決定了其下所有技術(shù)嘗試,其實(shí)都會落腳在商業(yè)化應(yīng)用上。
和Seedance 2.0一樣,HappyHorse從匿名沖榜到官宣認(rèn)領(lǐng),再到計劃開放API、接入阿里百煉MaaS平臺,商業(yè)化推進(jìn)的節(jié)奏也非常快。
考慮到HappyHorse團(tuán)隊(duì)負(fù)責(zé)人鄭波同時兼任阿里媽媽CTO,未來HappyHorse的應(yīng)用很可能要與電商業(yè)務(wù)深度綁定。
三
不止工具,生態(tài)協(xié)同
讓AI與原本的核心業(yè)務(wù)深度協(xié)同,帶來更大的生態(tài)繁榮,是現(xiàn)在每個互聯(lián)網(wǎng)巨頭都看重的事。除此之外,阿里還有一個多年的心愿,即打造流量入口,反哺電商等核心業(yè)務(wù)。
理想情況下,HappyHorse可以同時踩中這兩個關(guān)鍵點(diǎn)。
作為視頻生成工具,HappyHorse可以應(yīng)用于商品廣告、虛擬主播等電商業(yè)務(wù)場景中。如果還能在AI內(nèi)容生成的源頭占據(jù)一席之地,就能為電商交易等業(yè)務(wù)提供內(nèi)生流量,從而構(gòu)建“內(nèi)容-交易-履約”的完整閉環(huán)。
這并非毫無根據(jù)的想象,畢竟Seedance2.0已經(jīng)殺入電商領(lǐng)域了。
4月2日,AI Agent 公司 NoDesk AI 發(fā)布旗下產(chǎn)品 DeskClaw 新版本,正式接入Seedance2.0。這是 Claw 賽道先一步明確聚焦垂直電商、也是電商領(lǐng)域首批接入 Seedance2.0 的 AI 產(chǎn)品。
對于大部分的投資者和從業(yè)人員來說,阿里作為電商一哥,似乎沒有理由做不到類似的事情。
HappyHorse這種阿里系視頻生成工具的出現(xiàn),某種意義上來說是符合公眾預(yù)期的,畢竟,讓商家可以在電商平臺上直接用上穩(wěn)定、可靠的視頻生成工具,才是邏輯最順暢的做法。
而內(nèi)容生態(tài)領(lǐng)域,只要HappyHorse足夠穩(wěn)定、可靠并且便宜,同樣可以殺出一片天地來。
對大部分的內(nèi)容創(chuàng)作者來說,成本可控是非常重要,并不只是簡單的價格高了或者低了的問題。
無論是個人UP主、小型工作室還是MCN機(jī)構(gòu),其內(nèi)容生產(chǎn)都有預(yù)算和周期。一個價格頻繁波動、排隊(duì)時間無法預(yù)估的工具,會直接打亂整個生產(chǎn)計劃,讓項(xiàng)目無法報價、無法按期交付。
Seedance2.0現(xiàn)在恰恰就有這樣的問題和風(fēng)險。一方面,高峰期普通用戶排隊(duì)可達(dá)8萬人,等待時間超過7小時,即便是付費(fèi)高級會員也難以幸免。
另一方面,即夢平臺在短期內(nèi)連續(xù)調(diào)價,據(jù)說制作一部2分鐘AI漫劇的純素材生成成本,已經(jīng)從最初的約7元飆升至80元,擊穿了許多中小團(tuán)隊(duì)的商業(yè)模式底線。
“字節(jié)在年費(fèi)之上推出vvip等升級服務(wù),算是變相提價了,就是因?yàn)镾eedance一家獨(dú)大”, 有用戶向《財經(jīng)故事薈》吐槽,“現(xiàn)在HappyHorse上線,估計字節(jié)要掂量掂量了。”
只要HappyHorse質(zhì)量穩(wěn)定,又能做到體驗(yàn)好、定價低,就可以從競爭對手那里挖到到一批有真實(shí)內(nèi)容生成需求的客戶了。或許聰明的阿里云銷售,已經(jīng)開始接觸火山引擎的客戶了。
字節(jié)今天放開Seedance2.0的API接入,就是在主動降低用戶的使用門檻,有了HappyHorse這個對手,接下來雙方大打價格戰(zhàn),也是大概率事件。
字節(jié)、快手、阿里三國殺,模型能力你追我趕,算力成本穩(wěn)中有降,讓越來越多的中小創(chuàng)業(yè)者可以享受到技術(shù)普惠的紅利,也能快速引爆市場——這才是我們想看到的AI時代。














