快手科技近日宣布,其自主研發的新一代視頻生成模型可靈3.0系列正式進入超前內測階段。該系列包含圖片3.0、視頻3.0及視頻3.0 Omni三大版本,在原有技術架構基礎上實現了多項關鍵突破,為影視制作、廣告創意等領域提供更專業的AI生成工具。
圖片3.0版本聚焦專業創作場景,推出四大核心升級:首次支持通過單張或多張參考圖生成邏輯連貫的系列畫面,輸出分辨率提升至2K/4K級別,滿足影視預演、場景設計等高精度需求;通過改進紋理渲染與光影算法,顯著降低AI生成痕跡;優化構圖控制模塊,使鏡頭語言更符合專業影視規范。技術團隊采用視覺思維鏈(vCoT)技術實現場景解構推理,配合Deep-Stack視覺信息流機制,在模型訓練中引入強化學習框架,結合真實感與電影質感雙重評估標準優化輸出效果。
視頻3.0版本構建了統一的多模態訓練框架,支持文本、圖像、視頻片段混合輸入,單次生成時長擴展至15秒并支持3-15秒靈活調整。新開發的智能分鏡系統可自動匹配景別變化與機位調度,通過多圖/視頻錨定技術強化主體一致性控制。在音頻處理方面,實現中、英、日、韓、西五種語言及方言的精準口型同步,支持多人場景下的角色定向發聲,招牌文字等細節的清晰度提升30%以上。
作為高端版本,視頻3.0 Omni創新性地引入視頻主體特征庫功能,可提取3-8秒視頻中的角色形象與音色進行數字化重建。該版本通過優化多模態指令解析架構、調整音頻采樣區間及特征解耦重組方案,在保持生成效率的同時,使虛擬角色的表情動作與語音匹配度達到影視級標準,為短視頻創作、虛擬制片等領域開辟新的應用場景。











