普林斯頓大學研究團隊在視頻生成模型領域取得突破性進展,其最新研究揭示了這類模型在創作初期即完成核心路徑規劃的獨特機制。該成果發表于arXiv預印本平臺(編號:arXiv:2603.30043v1),通過迷宮解謎任務首次系統驗證了視頻AI的"前瞻性決策"能力,為提升復雜任務處理效率開辟了新路徑。
研究團隊選取迷宮解謎作為核心測試場景,構建了包含Frozen Lake和VR-Bench的多樣化實驗環境。前者模擬冰面行走場景,要求虛擬角色避開冰湖到達終點;后者則通過不同紋理的迷宮和陷阱設計,檢驗模型在視覺干擾下的規劃能力。實驗發現,當迷宮路徑超過12步時,現有模型的成功率會驟降至7%以下,而障礙物密度對任務難度的影響微乎其微。
通過深度分析Wan2.2-14B和HunyuanVideo-1.5兩個主流模型,研究人員捕捉到關鍵決策窗口期:在生成過程的前25%時間內,模型已確定93%的最終運動軌跡。這種"先規劃后細化"的工作模式,與人類棋手對弈時的策略選擇高度相似——頂尖棋手往往在開局階段即形成戰略框架,后續走棋僅需完善戰術細節。
基于上述發現,研究團隊開發出早期規劃波束搜索(EPBS)技術。該技術通過輕量級驗證器評估初期生成片段的質量,僅對潛力候選者投入完整計算資源。實驗數據顯示,在4×4迷宮測試中,EPBS方法將成功率從傳統方法的61.8%提升至88.2%,同時減少67%的計算量。這種"優中選優"的策略,有效避免了無效計算資源的浪費。
針對長路徑迷宮的固有局限,研究團隊創新性地引入鏈式推理機制。該方法將復雜路徑分解為多個可控片段,每個片段的終點作為下段起點,通過接力式生成確保整體連貫性。測試表明,在10-13步的長路徑任務中,結合EPBS的ChEaP方法將成功率從7.3%推高至67.3%,驗證了模塊化處理復雜任務的有效性。
對失敗案例的深度剖析揭示了三類典型錯誤模式:38%的失敗源于約束違反,如角色穿越障礙物;29%因計算資源耗盡導致規劃中斷;剩余則與生成異常相關。對比兩個測試模型發現,采用步數蒸餾技術的HunyuanVideo-1.5更易出現規則違背行為,這與其優化方向導致的策略偏移密切相關。
為驗證方法的普適性,研究團隊設計了四類診斷迷宮:僅需1-2步的基準測試迷宮、設置視覺陷阱的誘餌迷宮、障礙覆蓋率達75%的湖泊迷宮,以及強制繞行的障礙迷宮。測試結果顯示,ChEaP方法在各類場景中均保持性能優勢,特別是在需要繞行8步以上的任務中,其成功率是傳統方法的4.2倍。
該成果對自動駕駛、機器人導航等領域具有重要啟示。研究團隊指出,視頻生成模型展現的早期決策能力,與人類直覺判斷存在功能趨同。這種認知相似性提示,通過優化決策流程而非單純擴大模型規模,可能成為突破AI性能瓶頸的新方向。目前,研究團隊正探索將ChEaP方法應用于動態環境規劃,以驗證其在實時決策場景中的擴展性。
對于技術細節感興趣的讀者,可通過arXiv平臺獲取完整論文(編號:2603.30043v1)。該研究不僅為視頻生成領域提供了新的優化范式,更通過迷宮解謎這個"AI試金石",重新定義了我們對智能系統決策機制的理解邊界。











