螞蟻集團旗下具身智能企業螞蟻靈波科技近日宣布,其自主研發的LingBot-VLA具身大模型及配套后訓練工具鏈正式開源,同時開源的還有面向三維空間感知的LingBot-Depth深度補全模型。這一系列技術突破標志著具身智能領域在數據驅動、跨平臺遷移及三維感知能力方面取得重要進展。
在機器人跨本體適配方面,LingBot-VLA已與星海圖、松靈機器人、樂聚機器人等企業完成技術對接,驗證了該模型在雙臂協作機器人、輪式移動機器人等不同構型設備上的遷移能力。通過構建標準化后訓練工具鏈,該系統在8卡GPU環境下實現每秒261個樣本的處理速度,訓練效率較同類框架提升1.5至2.8倍,有效降低了數據采集與算力投入成本。
基于20,000小時真實機器人操作數據的預訓練研究顯示,當數據規模從3,000小時逐步擴展至20,000小時時,模型在復雜任務中的成功率呈現持續上升趨勢。特別值得注意的是,在達到最大數據規模時性能仍未出現飽和跡象,這為具身智能系統的持續優化提供了重要理論依據。研究團隊構建的訓練數據集覆蓋AgileX Cobot Magic、Galaxea R1Pro等9種主流雙臂機器人構型,涵蓋抓取、搬運、裝配等100余項真實操作場景。
在性能驗證環節,上海交通大學開源的GM-100評測基準顯示,搭載LingBot-VLA的機器人平臺在跨本體泛化測試中取得顯著突破。相比基線模型13.0%的成功率,該系統在無深度信息輸入時達到15.7%,引入深度數據后進一步提升至17.3%。這一提升得益于LingBot-Depth模型提供的精準空間感知能力,該模型可將含噪聲的原始深度數據轉化為毫米級精度的三維點云。
作為全球首個通過工業級深度相機認證的開源模型,LingBot-Depth在ETH3D、NYUv2等國際基準測試中刷新多項紀錄。其創新性的訓練方法直接利用奧比中光Gemini 330系列相機的原始深度數據,在單目深度估計、雙目匹配等任務上達到行業領先水平。特別在動態場景處理方面,該模型無需復雜時序建模即可保持視頻流的空間一致性,這對自動駕駛、服務機器人等實時應用場景具有重要意義。
目前,兩大模型的技術文檔與源代碼已在指定平臺開放下載,開發者可獲取涵蓋數據預處理、模型訓練、部署優化的全流程工具包。此次開源不僅為學術界提供了前沿研究基準,更為工業界降低具身智能技術應用門檻提供關鍵支撐。











