AIPress.com.cn報道
1 月 30 日,螞蟻靈波科技宣布開源具身世界模型 LingBot-VA。該模型在此前連續(xù)發(fā)布空間感知模型、具身大模型與世界模型的基礎(chǔ)上,進一步探索世界模型在真實機器人控制中的應(yīng)用路徑。
LingBot-VA 首次提出自回歸的視頻-動作世界建模框架,將大規(guī)模視頻生成模型與機器人動作控制深度融合。模型在生成“下一步世界狀態(tài)”的同時,同步推演并輸出對應(yīng)的動作序列,使機器人能夠在持續(xù)感知環(huán)境變化的過程中完成動作決策與執(zhí)行。
在真實機器人評測中,LingBot-VA 展現(xiàn)出對復(fù)雜物理交互任務(wù)的適應(yīng)能力。在長時序任務(wù)、高精度操作以及柔性與關(guān)節(jié)物體操控三大類共六項高難度場景中,模型僅依賴 30 至 50 條真機演示數(shù)據(jù)即可完成適配,任務(wù)成功率較業(yè)界強基線 Pi0.5 平均提升約 20%。
在仿真環(huán)境中,LingBot-VA 在多項具身智能基準測試中刷新現(xiàn)有成績。在高難度雙臂協(xié)同操作基準 RoboTwin 2.0 上,模型成功率首次超過 90%;在長時序終身學(xué)習(xí)基準 LIBERO 上,平均成功率達到 98.5%。
據(jù)介紹,LingBot-VA 采用 Mixture-of-Transformers(MoT)架構(gòu),實現(xiàn)視頻感知與動作控制的跨模態(tài)融合。通過閉環(huán)推演機制,模型在每一步生成過程中引入真實世界的實時反饋,以減少長期推演中畫面與動作偏離物理現(xiàn)實的風(fēng)險。
針對大規(guī)模視頻世界模型在機器人端側(cè)部署的計算挑戰(zhàn),LingBot-VA 設(shè)計了異步推理管線,使動作預(yù)測與電機執(zhí)行并行運行,并結(jié)合記憶緩存與噪聲歷史增強策略,在減少生成步數(shù)的同時保持動作輸出的穩(wěn)定性與精度,從而兼顧模型能力與低延遲控制需求。
螞蟻靈波表示,LingBot-VA 與此前開源的 LingBot-World、LingBot-VLA 和 LingBot-Depth 共同構(gòu)成具身智能技術(shù)體系,探索“世界模型賦能具身操作”的技術(shù)路線。相關(guān)模型權(quán)重與推理代碼目前已全面開源。











