在機器人技術領域,規模化應用長期面臨數據割裂、動作表示不統一以及空間理解能力不足等難題。不同廠商、不同形態的機器人數據體系獨立,導致模型難以跨平臺復用,訓練效率受限且部署成本高昂。近日,阿里巴巴集團旗下高德推出的兩款基座模型——具身操作基座模型ABot-M0與具身導航基座模型ABot-N0,為解決這些問題帶來了新的突破。
ABot-M0作為通用的具身操作基礎模型,從“數據統一—算法革新—空間感知”三個維度進行系統性重構,以提升模型在多樣化機器人形態和任務場景下的泛化能力。在數據層面,它整合全球開源資源,構建了規模超600萬條真實操作軌跡的通用機器人數據集。通過統一動作表示、坐標系與控制頻率,并采用增量式動作建模,實現了跨平臺數據融合,支持完全基于公開數據的預訓練。
算法上,ABot-M0提出全球首個動作流形學習。由于機器人動作受物理規律、任務目標與環境約束,集中分布在低維結構化流形上,該模型設計了AML(Action Manifold Learning)算法,可直接預測結構合理、物理可行的動作序列,提升策略穩定性與解碼效率。為增強空間感知,模型引入3D感知模塊,強化對“前后、遠近、遮擋”等空間語義的理解,能在復雜環境中做出更精準的操作決策。
在Libero、Libero-Plus、RoboCasa基準測試中,ABot-M0在包含復雜任務組合與動態場景擾動的設定下,平均任務成功率均達到SOTA。其中,在Libero-Plus基準上達到80.5%,較業界先進方案pi0提升近30%,在高擾動高難度具身操作任務中表現卓越。
導航是機器人進入物理開放世界的核心能力,但當前具身導航研究存在“碎片化”問題。主流方法針對特定任務構建孤立專用架構,限制了模型跨任務泛化能力,阻礙智能體提取統一物理先驗,導致機器人常“環境看不懂、動作做不準”,復雜指令難以執行。
高德推出的具身導航基座模型ABot-N0以“全任務一統”為目標,全球首次在單一模型中完整集成Point-Goal(點位導航)、Object-Goal(目標導航)、Instruction-Following(指令跟隨)、POI-Goal(興趣點導航)與Person-Following(人物跟隨)五大導航任務,突破了傳統架構任務割裂的瓶頸。例如,當用戶要求搭載ABot-N0的機器人“帶我去奶茶店買一杯奶茶,再幫我占個座”時,系統會自動分解任務:先執行Point-Goal接近奶茶店區域,再切換至POI-Goal鎖定店鋪入口并靠近,接著觸發Instruction-Following進入店鋪導航至柜臺,最后執行Object-Goal尋找空沙發停靠。
ABot-N0在架構設計、數據引擎和系統框架上均有關鍵革新。模型架構采用層次化的“大腦?動作”設計哲學,“認知大腦”理解指令并推理,“動作專家”基于流匹配生成精確且多峰分布的連續軌跡。訓練時,先進行認知訓練熱身,再用部分認知數據和海量導航動作聯合監督微調,最后用強化學習將導航決策對齊到人類偏好的行為價值,打造出更通用的VLA基座模型。
數據方面,依托高德長期積累的場景資產和專家示例,構建了業內最大規模的具身導航數據引擎,涵蓋約8000個高保真3D場景等海量時空數據與近1700萬條專家示例,增強了模型在真實環境中的泛化能力與魯棒性。基于這些創新,ABot-N0在CityWalker、SocNav、R2R-CE/RxR-CE、HM3D-OVON、BridgeNav、EVT-Bench七大權威基準測試中全面刷新世界紀錄。其中在SocNav閉環仿真中,成功率(SR)飆升40.5%,在HM3D-OVON評測中成功率(SR)提升8.8%,均顯著優于之前的SOTA模型。
為解決機器人在執行長程復雜任務時的任務拆解與容錯問題,高德提出可落地的Agentic Navigation System具身導航系統框架,形成從“讀懂指令”到“長程復雜任務執行”的閉環能力架構,支持機器人在執行過程中持續感知、記憶、決策與糾錯。該系統已成功部署于真實四足機器人平臺,并在邊緣側實現高效推理與閉環控制,驗證了其在動態現實環境中的泛化性能與工業級穩定性。












