阿里通義實驗室近日推出了一款名為Wan2.7-Video的視頻創作大模型,該模型突破了傳統視頻編輯的局限,支持文本、圖像、視頻和音頻的全模態輸入,為用戶提供了更加靈活和高效的視頻創作工具。無論是畫面結構、劇情走向,還是局部細節和時序變化,用戶都可以通過簡單的指令進行精細調整。
Wan2.7-Video的亮點之一是實現了“一句話改視頻”的功能。用戶只需輸入簡短的文字描述,模型就能自動保持視頻中的光影和材質一致性,同時支持多張圖像的同步輸入。這一功能大大簡化了視頻編輯的流程,讓用戶能夠更專注于創意表達。模型還引入了視頻續寫與尾幀控制的聯合機制,用戶可以在續寫視頻的同時,直接指定結尾畫面,確保劇情的連貫性和可控性。
在角色替換方面,Wan2.7-Video展現了強大的能力。通過參考圖像,模型可以將原視頻中的角色替換為新的形象,同時保持背景、服裝和姿態的一致性。例如,將原視頻中的歐美男生替換為中國男生后,視頻中的人物嘴型和臺詞保持不變,僅服裝上的光影效果略有調整,整體效果自然流暢。
該模型還支持對視頻畫面進行局部增刪改操作。用戶可以通過指令對特定區域進行調整,編輯后的內容在光影和材質上與原視頻無縫融合。無論是增刪元素、替換物體,還是修改物體屬性,Wan2.7-Video都能輕松應對。用戶還可以通過指令修改劇情內容或拍攝方法,實現二次創作。例如,保持角色身份和場景不變,僅修改行為、臺詞或拍攝視角,為視頻創作帶來更多可能性。
在拍攝技巧方面,Wan2.7-Video同樣表現出色。模型支持推、拉、搖、移、跟、升降等數十種基礎運鏡,還能執行希區柯克式變焦、上升揭示等復合技巧。用戶只需輸入簡短的文字描述,模型就能自動完成智能劇本創作和分鏡調度,并根據電影類型自動匹配色彩和光影風格。這一功能讓非專業用戶也能輕松創作出具有專業水準的視頻作品。
Wan2.7-Video在情緒表達上也達到了新的高度。模型不僅支持高興、悲傷、憤怒等基礎情緒,還能演繹超過40種細分表情,為角色賦予更加豐富的情感層次。同時,模型建立了一種新的映射關系,以戲核為高級指令,直接驅動光影、攝影和色彩等參數的生成,確保視頻的整體風格一致。
在多模態參考方面,Wan2.7-Video支持圖像、視頻和音頻等多種形式的輸入,最多可參考5個視頻主體。模型還對多宮格參考圖進行了優化,可以直接將漫畫轉換為動畫片,為創意表達提供了更多選擇。模型在視頻續寫和尾幀控制方面進行了重點優化,有效解決了傳統方法中常見的“剎車感”和可控性差的問題。
阿里通義實驗室表示,Wan2.7-Video的推出標志著視頻生成技術進入了一個新的階段。過去,用戶修改視頻中的任何細節幾乎都需要重新生成整個片段,效率低下且難以保持一致性。而Wan2.7-Video通過底層效率優化顯著降低了使用門檻,讓專業視頻創作變得更加輕松可控。這一成果不僅得益于視覺模型的創新,還離不開音頻預訓練、影視領域知識和角色表演等方面的綜合支持。








