AI視頻生成領域迎來新一輪技術升級,某平臺推出的可靈3.0多模態系統引發行業關注。該系統通過智能分鏡、主體一致性優化等核心功能,顯著降低了多鏡頭視頻創作門檻,普通用戶也能快速生成具備專業質感的動態內容。
在智能分鏡功能測試中,系統展現出強大的文本解析能力。用戶輸入包含復雜場景轉換的提示詞后,AI可自動拆解出多個獨立鏡頭,并精準匹配角色動作與臺詞。例如在模擬《甄嬛傳》宮斗場景時,系統不僅完整還原了四個鏡頭切換,還通過語音合成技術實現了角色對話的聲畫同步,僅在背景音樂生成環節出現輕微偏差。
角色一致性控制方面,新引入的多圖參考機制有效解決了傳統模型易出現的"換臉"問題。測試人員上傳人物不同角度照片后,系統在奔跑、轉身等動態場景中,仍能保持面部特征與體型比例的穩定性。不過當參考圖缺乏正面形象時,模型會自主進行特征補全,導致部分測試中出現膚色、發型等細節變化。
文字保真技術成為本次升級的亮點。在動態鏡頭測試中,旋轉的香水瓶身文字始終保持清晰可辨,證明系統已掌握空間變換下的結構渲染能力。這項突破為電商廣告制作提供了新工具,商家可直接生成包含產品LOGO的動態宣傳片,無需后期人工修圖。
方言語音合成功能呈現差異化表現。系統雖支持多語種及地方口音生成,但在復雜語境下仍需優化。測試中讓虛擬角色用天津話介紹煎餅果子的場景,最終輸出為標準普通話;而兵馬俑說四川話的測試則獲得較好效果,顯示模型對特定方言的掌握程度存在差異。
同步推出的O3 OMNI模型進一步拓展創作邊界。該模型支持15秒中長視頻生成,可通過3-8秒參考視頻提取角色特征,實現外觀、聲音的雙重綁定。在萬圣節主題測試中,系統準確控制兔子跳躍軌跡,使其依次穿過南瓜燈、墓碑等元素,展現出對時序關系的精確把控。
分鏡敘事功能提供智能與自定義雙模式。智能模式允許用戶直接輸入完整腳本,由AI自動完成鏡頭設計;自定義模式則面向專業創作者,支持上傳參考圖并標注每個鏡頭的運動軌跡。不過測試顯示,自定義模式對提示詞精度要求較高,普通用戶更傾向使用智能生成方案。
當前該系統已向黑金會員開放Web端體驗,普通用戶預計將在短期內獲得使用權限。技術團隊承認現有模型仍存在角色融合度不足、自定義分鏡操作復雜等問題,但強調這些缺陷不影響基礎創作需求,后續版本將持續優化交互體驗與生成質量。










