螞蟻靈波科技近日宣布開源其最新研發的具身世界模型LingBot-VA,標志著該公司在機器人控制領域的技術探索邁入新階段。這一模型基于此前發布的系列技術成果,包括空間感知模型、具身大模型和世界模型,進一步深化了世界模型在真實機器人場景中的應用實踐。
LingBot-VA的核心創新在于提出了自回歸的視頻-動作世界建模框架。該框架通過將大規模視頻生成能力與機器人動作控制系統深度結合,使模型在預測環境下一狀態的同時,能夠同步生成對應的動作序列。這種設計讓機器人能夠在動態感知環境變化的過程中,實時完成動作決策與執行,顯著提升了復雜場景下的適應能力。
在真實機器人測試中,該模型展現出強大的任務處理能力。面對長時序操作、高精度控制以及柔性物體交互等六大類高難度任務,LingBot-VA僅需30至50條真實機器人演示數據即可完成模型適配。實驗數據顯示,其任務成功率較當前業界領先基準模型Pi0.5平均提升約20%,特別是在需要持續環境交互的場景中表現尤為突出。
仿真環境測試進一步驗證了模型的先進性。在雙臂協同操作基準測試RoboTwin 2.0中,LingBot-VA以超過90%的成功率刷新紀錄;在長時序終身學習基準LIBERO測試中,平均成功率達到98.5%。這些數據表明,該模型在處理復雜時序邏輯和持續學習任務方面具有顯著優勢。
技術架構方面,LingBot-VA采用創新的Mixture-of-Transformers(MoT)設計,實現了視頻感知與動作控制的跨模態深度融合。通過引入閉環推演機制,模型在每步生成過程中都會整合真實世界的實時反饋,有效避免了長期預測中可能出現的畫面與動作偏離物理規律的問題。這種設計使機器人操作更符合真實環境約束。
針對機器人端側部署的計算瓶頸,研發團隊設計了異步推理管線。該方案通過并行處理動作預測與電機執行,結合記憶緩存技術和噪聲歷史增強策略,在減少生成步數的同時確保動作輸出的穩定性。這種優化使模型既能保持高性能,又能滿足低延遲控制需求,為實際工業應用奠定了基礎。
此次開源的LingBot-VA與先前發布的LingBot-World、LingBot-VLA和LingBot-Depth共同構成完整的具身智能技術體系。這套技術方案聚焦于"世界模型賦能具身操作"的技術路徑,為機器人領域提供了新的研發范式。目前,所有相關模型的權重參數和推理代碼均已向研究社區開放。











