螞蟻靈波科技今日宣布,其自主研發的具身世界模型LingBot-VA正式開源,為機器人領域帶來突破性進展。該模型首次將自回歸視頻-動作世界建模框架應用于具身智能,通過深度融合大規模視頻生成與機器人控制技術,實現了“邊推演、邊行動”的類人決策能力。在真機測試中,LingBot-VA僅需30至50條演示數據,即可完成制作早餐、疊衣物、拆快遞等六大類高難度任務的適配,任務成功率較行業標桿模型Pi0.5平均提升20%。
技術架構方面,LingBot-VA采用創新的Mixture-of-Transformers(MoT)設計,通過跨模態融合機制統一處理視頻信息與動作指令。其閉環推演系統能夠實時整合環境反饋,確保生成的畫面與動作始終符合物理規律。針對機器人端側部署的計算瓶頸,研發團隊設計了異步推理管線,將動作預測與電機執行并行處理,同時引入記憶緩存與噪聲增強策略,在減少生成步驟的同時提升指令精度,使模型兼具大模型的認知能力與實時的控制響應速度。
在仿真環境測試中,LingBot-VA展現出顯著優勢:在雙臂協同操作基準RoboTwin2.0上,模型以超過90%的成功率刷新行業紀錄;在長時序終身學習基準LIBERO測試中,更取得98.5%的平均成功率。這些數據表明,該模型在復雜動態環境中的適應能力已達到行業領先水平。螞蟻靈波透露,此次開源包含完整的模型權重與推理代碼,開發者可基于現有框架進行二次開發。
作為螞蟻集團InclusionAI社區的重要成果,LingBot-VA與近期開源的LingBot-World模擬環境、LingBot-VLA智能基座及LingBot-Depth空間感知模型形成技術閉環。這種“世界模型+具身操作”的研發路徑,為機器人從實驗室走向真實產業場景提供了完整解決方案。通過開源社區的協作機制,螞蟻集團旨在推動具身智能技術在工業制造、物流倉儲、家庭服務等領域的應用落地,加速構建開放共享的AGI技術生態。












