螞蟻集團旗下靈波科技近日宣布,正式開源其自主研發的具身大模型LingBot-VLA,為機器人操作場景提供了一款具備跨本體、跨任務泛化能力的“智能基座”。這一模型通過降低后訓練成本,顯著提升了“一腦多機”的工程化落地可能性,標志著具身智能技術向實際應用邁出了重要一步。
在性能驗證方面,LingBot-VLA展現了顯著優勢。在上海交通大學開源的具身評測基準GM-100(包含100項真實操作任務)中,該模型在三個不同機器人平臺上實現了跨本體泛化平均成功率15.7%(未引入深度信息),較對比模型Pi0.5的13.0%有明顯提升;當結合高精度空間感知模型LingBot-Depth引入深度信息后,成功率進一步躍升至17.3%,刷新了真機評測紀錄。在RoboTwin 2.0仿真基準(50項任務)測試中,面對光照、雜物、高度擾動等環境隨機化干擾,LingBot-VLA通過可學習查詢對齊機制深度融合深度信息,操作成功率較Pi0.5提升9.92%,展現了從虛擬仿真到真實場景的全方位性能領先。
具身智能模型落地長期面臨本體、任務、環境差異帶來的泛化性挑戰。傳統開發模式下,開發者需針對不同硬件和任務重復采集大量數據進行后訓練,導致成本高企且難以形成規模化交付路徑。LingBot-VLA通過預訓練階段覆蓋20000+小時大規模真機數據,涵蓋AgileX、Galaxea R1Pro、R1Lite、AgiBot G1等9種主流雙臂機器人構型,使同一“大腦”可無縫遷移至不同機器人,并在任務和環境變化時保持穩定性能。與LingBot-Depth配合后,模型能獲取更高質量的深度信息表征,實現“看得更清楚、做得更明白”的視覺-動作協同優化。
在效率與成本優化方面,LingBot-VLA展現了顯著優勢。其基座能力使下游任務適配門檻大幅降低,僅需80條演示數據即可實現高質量任務遷移;配合底層代碼庫深度優化,訓練效率達到StarVLA、OpenPI等主流框架的1.5至2.8倍,數據與算力成本實現雙重降低。此次開源不僅提供模型權重,還同步開放包含數據處理、高效微調及自動化評估的全套代碼庫,大幅壓縮訓練周期,降低商業化落地的算力與時間門檻,助力開發者以更低成本快速適配自有場景。
螞蟻靈波科技CEO朱興表示,具身智能的大規模應用依賴于高效的基座模型,這直接決定了技術的可用性與經濟性。通過開源LingBot-VLA,公司希望探索具身智能的技術上限,推動研發進入可復用、可驗證、可規模化落地的新階段,加速AI在物理世界的滲透普及。作為螞蟻在AGI研發領域的又一探索性成果,LingBot-VLA是螞蟻開源的首款具身智能基座模型,也是其InclusionAI技術體系與開源生態的關鍵實踐。該體系涵蓋基礎模型、多模態、推理、新型架構及具身智能等完整技術鏈條,旨在通過開源開放模式攜手全球開發者,加速技術迭代與規模化應用。
在數據采集與模型預訓練階段,LingBot-VLA得到了星海圖、松靈等硬件平臺支持,以及樂聚、庫帕思、國家地方共建人形機器人創新中心、北京人形機器人創新中心有限公司、博登智能、睿爾曼等機構提供的高質量數據。目前,該模型已與星海圖、松靈、樂聚等廠商完成適配,驗證了跨本體遷移能力,為具身智能技術的產業化應用奠定了基礎。









