春節將至,當多數行業放緩節奏時,AI領域卻呈現出一片火熱景象。新模型如潮水般不斷涌現,絲毫沒有停歇的跡象。這一時期,AI行業呈現出一種獨特的現象:一方面,各大廠商在AI入口處展開激烈的營銷競爭,全力爭奪用戶心智和使用場景;另一方面,底層模型的更新迭代速度依舊迅猛,絲毫未受影響。
廠商們心里明白,僅靠入口的包裝和營銷的聲量,無法支撐起長期的競爭力,模型能力的持續提升才是關鍵所在。近期,字節跳動推出了新一代視頻生成模型Seedance 2.0,將視頻生成技術朝著“更可控、更連貫、更貼近真實鏡頭語言”的方向又推進了一步。值得注意的是,此次大版本更新距離前一代支持音視頻聯合生成的模型Seedance 1.5 Pro發布僅過去了兩個月。
在AI領域,入口競爭與模型更新這兩條線并行推進,且互不等待。為了深入了解Seedance 2.0的性能,我們對其進行了全面實測。此次實測是在“即夢”平臺上使用該模型展開的。
Seedance 2.0的一大亮點是參考能力更加全面。與上一代的音視頻模型Seedance 1.5 Pro相比,它對多張圖片、多段視頻同時參考的支持能力更強,使用起來也更加便捷。不僅如此,加強“參考視頻”能力似乎已成為行業趨勢,像Kimi 2.5這類通用大模型,也開始強調能夠參考視頻內容生成結果。
我們首先以運動品牌風格的人物模特和運動手表實物產品為素材進行測試。同時,上傳了一支經典的Apple Watch官方宣傳片作為參考視頻。這款宣傳片采用多鏡頭結構,包含人物鏡頭和產品特寫,非常適合作為參考素材。在“即夢”平臺上,操作十分簡便,只需按照直觀的提示,告知模型參考視頻的鏡頭節奏和風格,生成新的運動手表廣告,并替換主角和商品圖片即可。整個流程就是選擇參考視頻、人物圖和商品圖,然后讓模型生成新的廣告片。
生成這類視頻耗時較長,積分消耗也不低。例如,使用兩張圖片和一段參考視頻生成一條15秒的視頻,大約需要消耗近200積分。不過,成片質量相當可觀。視頻整體真實感強,模特在公路上跑步時的光線變化、頭發反光、臉部受光等細節處理得十分到位,毫無虛假之感。而且,在沒有提供完整故事結構,僅給出參考素材和目標類型的情況下,視頻節奏由模型自行編排。片中主要展示的產品就是提供的手表,有兩段鏡頭專門聚焦手表并添加了動效。畫面元素基本無誤,但數字和中文偶爾會出現亂寫的情況,不過與上一代相比,這種“AI幻覺”現象有了明顯改善。
鑒于Seedance 2.0在動效表現上的出色發揮,我們進行了更多測試。我們生成了一張新春財神抱著金元寶的圖片和一張美劇風格的惡靈騎士角色圖,將這兩張圖作為參考素材,讓模型生成視頻。給定的目標是先讓財神出場,背后是發光的元寶和金幣,接著惡靈騎士騎著摩托沖進畫面,然后財神騎著摩托離開,最后閃現“新春快樂”和具體日期的畫面。成片中,開頭惡靈騎士部分AI感較重,但財神與道具的互動、表情變化和動作銜接比以往更加流暢。我們還發現,畫面中較大的藝術字,Seedance 2.0出錯的概率較低。我們也測試了畫面中有多個主體且鏡頭逐個掃過的場景。
我們制作了一張五個小動物穿著不同禮服坐在長椅上的圖片,讓畫面中的小動物一起跳舞拜年,鏡頭逐個掃過并在每個角色動作上停留,給予慢鏡頭和特寫。這一測試主要考察模型在鏡頭逐個掃過時角色出場順序的一致性,即視頻中的出場順序要與原圖中小動物從左到右的順序一致。從生成結果來看,Seedance 2.0在畫面質量和整體一致性上表現不錯,但經過多次嘗試才得到滿意版本,仍會出現熊貓和兔子位置對調等順序問題。不過,當鏡頭停留在單個角色上時,毛發細節、質感和真實度,以及鏡頭切換都處理得較為自然。
我們還進行了更具敘事性的視頻案例測試。以一張十字路口大型3D LED屏畫面(里面有一只尾巴伸出屏幕的貓)和一張經典宇航員圖片為參考素材,提示模型讓宇航員走進十字路口,停下打開頭盔面罩、戴上墨鏡,看向3D LED屏里的貓并愣住,周圍街道人來人往。最終生成的視頻效果良好,宇航員走進路口時,周圍行人和車輛的動態變化自然,沒有明顯錯亂感。但屏幕里的貓顯得有些呆滯,靈動感不足。
接著,我們以一張包含多個男性角色的Instagram風格剪貼畫為素材,要求模型在保留人物和背景不變的情況下,讓這些男性角色一起跳動起來。這一任務難度較大,因為以往靜態生成復雜圖片就容易出錯,視頻中讓剪貼畫人物動起來并互動,更容易使周圍元素混亂。我們給出的提示詞明確要求保留畫面文字,讓七個人物在搞笑、抽象的節奏下跳舞并互動。最終生成的視頻與提示詞相符,畫面文字未被改動,七個角色之間有互動且基本同步跳舞,遮擋文字時文字也未被修改。
最后一個案例中,我們使用了一位體操運動員運動時的模糊剪影圖片,提供了五張具有明顯動態拖影、構圖極簡的參考圖,要求模型保留動態拖影感覺,生成具有運動廣告片質感、可直接發布到短視頻平臺的視頻。生成效果令人滿意,模型在結構和節奏上有主動安排,鏡頭切換自然,并非簡單地將圖片變成動圖后硬切。即使沒有提供音樂參考和提示詞,生成視頻的音樂與節奏也較為合拍。部分鏡頭還會主動給出慢鏡頭特寫,且為了使鏡頭銜接自然,會對參考畫面進行前后內容的補充和動作的延伸。
Seedance 2.0在敘事節奏、鏡頭切換以及對參考圖片和視頻的一致性保持方面,相比上一代音視頻模型有了顯著提升。然而,它也存在一些問題,比如畫面中細小文字或元素在動態變化時仍會偶爾出錯,不過出錯頻率已大幅降低。同時,單個視頻生成時間長,積分消耗大。對于字節的平臺而言,這有助于提升內容供給效率,因為該模型已全面應用到旗下“即夢”、CapCut(剪映)等AI內容創作平臺。目前,視頻生成模型已快速進入產品化和商業化驗證階段,誰能將生成質量、速度、可控性和接入成本控制在可用范圍內,誰就更有可能融入真實內容生產鏈路。












