阿里通義實驗室近日推出全新視頻創作大模型Wan2.7-Video,該模型突破傳統視頻編輯框架,支持文本、圖像、視頻、音頻全模態輸入,用戶可通過自然語言指令實現畫面結構重組、劇情動態調整、局部細節優化及時序變化控制。模型核心亮點在于"一句話改視頻"功能,能在保持光影材質一致性的基礎上,同步處理多張圖像輸入,實現跨模態素材的無縫融合。
在劇情控制領域,該模型首創視頻續寫與尾幀控制的聯合機制。用戶既可指定結尾畫面進行定向續寫,也能通過多達5個視頻主體參考實現復雜場景構建。實驗數據顯示,模型能精準保留原視頻動作序列與鏡頭運動軌跡,同時支持季節變換、畫風轉換等全局修改。當測試人員要求將夏日背景改為深秋場景時,系統自動調整植被色彩與光照角度,人物服裝光影效果同步適配新環境。
角色編輯系統展現強大適應性。在角色替換測試中,模型成功將歐美男性主角替換為中國男性形象,不僅完整保留原始臺詞與嘴型同步,還自動修正服裝光影以匹配場景光源。更引人注目的是行為修改功能,當指令要求"坐沙發的女生改為站立打游戲"時,系統在保持人物姿勢自然過渡的同時,重新計算空間布局與光影反射,確保新動作符合物理規律。
技術團隊突破性地將電影工業流程解構為可編程模塊。模型內置40余種微表情庫,能精準演繹從驚喜到困惑等復雜情緒變化。通過學習大量專業劇本,系統掌握戲劇結構編排規律,可根據"西部片"或"科幻片"等類型指令,自動生成匹配的光影參數與色彩方案。在運鏡控制方面,支持推拉搖移等基礎鏡頭語言,更能實現希區柯克變焦等復合技巧,單條指令即可完成從分鏡腳本到成片輸出的全流程。
多模態參考系統開創行業新標準。除常規圖像視頻參考外,模型特別優化多宮格漫畫轉動畫功能,能自動識別分鏡邏輯并生成連貫動態畫面。音頻處理模塊得到專項強化,通過預訓練架構提升人聲真實度與音畫同步精度,在測試中成功還原樂器演奏的細微力度變化。影視知識庫的引入使角色表演更具專業水準,人物走位、手勢幅度等細節均符合鏡頭語言規范。
該模型的推出標志著視頻創作進入精準控制時代。傳統需要逐幀調整的復雜操作,現在可通過自然語言批量處理。技術文檔顯示,底層架構經過效率優化,在保持4K分辨率輸出的同時,將推理速度提升3倍。這種技術突破正在重塑創作流程,專業團隊可專注核心創意,技術實現環節交由智能系統完成,顯著降低高質量視頻的生產門檻。







