牛津大學聯合Snap研究院、多倫多大學及MBZUAI的研究團隊,在人工智能領域取得了一項突破性進展。他們開發出一種名為ActionParty的創新系統,成功解決了多人視頻游戲中AI控制多個角色時的動作混淆難題。這項成果以論文形式發布在arXiv預印本平臺,編號為2604.02330v1,為構建智能化多人游戲環境提供了全新思路。
傳統AI在控制單個游戲角色時表現良好,但面對多個角色同時執行不同指令的場景時,常出現嚴重的動作綁定錯誤。例如要求紅色角色向右移動、藍色角色向左移動時,系統可能讓兩個角色執行相同動作,或完全交換指令。這種混亂在復雜游戲場景中會不斷累積,最終導致整個游戲邏輯崩潰。研究團隊通過實驗發現,即便是當前最先進的視頻生成模型,在處理兩個角色的基礎移動任務時,錯誤率仍高達84.2%。
ActionParty的核心創新在于為每個游戲角色分配獨特的"數字身份證"。這套系統包含三維旋轉位置編碼技術,能實時追蹤每個角色的空間坐標和狀態變化。通過交叉注意力掩碼機制,確保動作指令僅能被目標角色接收,而自注意力掩碼則防止角色狀態信息相互干擾。這種設計類似于為每個樂手配備專屬樂譜,同時通過智能指揮系統協調整體演奏。
在包含46種不同游戲類型的Melting Pot基準測試中,ActionParty展現出顯著優勢。該系統成功控制多達七個角色同時行動,移動指令準確率達到77.9%,角色身份保持成功率高達90.3%。特別是在需要連續多步操作的場景中,其性能穩定性遠超傳統方法,第四步操作時仍能保持82.4%的準確率。研究團隊收集了9.2萬個游戲視頻樣本進行訓練,涵蓋從簡單收集任務到復雜策略對抗的各種場景。
技術實現方面,ActionParty基于擴散變換器架構構建,創造性地將視頻令牌與狀態令牌進行聯合建模。系統采用滑動窗口技術處理長序列生成,在保持20步連續操作穩定性的同時,計算開銷僅增加6%。狀態表示采用簡化二維坐標系統,既滿足游戲環境需求,又確保與現有視頻生成框架的兼容性。訓練過程分為預訓練和精細調優兩個階段,最終模型能夠理解25種基礎動作指令,包括移動、轉向和交互等類型。
這項突破對多智能體系統研究具有重要啟示意義。傳統AI研究多聚焦于單智能體場景,而現實世界中的自動駕駛、機器人協作等應用都需要多個智能體協同工作。ActionParty證明,通過統一建模架構,AI系統能夠同時理解并控制多個獨立實體。其技術原理已開始應用于教育仿真、工業建模等領域,研究人員正在探索將其擴展至三維空間和連續動作控制場景。
實驗數據顯示,在未經專門訓練的復雜場景中,ActionParty仍能保持較高性能。當角色數量從兩個增加到八個時,系統準確率僅下降12.3%,顯示出良好的泛化能力。視覺質量評估指標同樣優異,LPIPS得分0.0102、PSNR得分36.35,證明該系統在解決動作綁定問題的同時,仍能保持高質量的視頻生成效果。
研究團隊指出,當前系統在極端復雜交互場景中仍存在改進空間。例如角色快速移動時的位置預測偏差,以及罕見情況下的角色消失問題。但隨著硬件計算能力的提升和算法優化,這些限制有望逐步解決。該成果已引起游戲開發、自動駕駛等多個領域的關注,其核心機制為解決多智能體協調問題提供了全新技術路徑。











