近日,宇樹科技宣布正式開源其最新研發的通用人形機器人操作大模型——UnifoLM-VLA-0。該模型基于視覺-語言-動作(VLA)架構,通過整合機器人操作數據與多模態預訓練技術,實現了從傳統圖文理解向具備物理交互能力的"具身智能"的跨越式發展。
針對機器人操作場景中指令理解與空間感知的特殊需求,研發團隊創新性地構建了包含2D/3D空間信息的預訓練數據集。該數據集覆蓋2D檢測分割、任務層級分解、3D目標檢測等八大維度,通過持續預訓練使模型具備精準的空間位置推理能力。實驗數據顯示,在真機驗證環節,單一策略網絡即可完成包括抓取、放置、工具使用等在內的12類復雜操作任務。
技術實現層面,模型以Qwen2.5-VL-7B開源模型為基礎,通過系統化清洗約340小時真機操作數據,構建了包含離散動作標注的動力學預測數據集。研發團隊引入動作分塊預測機制與雙向動力學約束,使模型能夠統一建模動作序列,顯著提升對物理交互規律的理解能力。這種設計支持長時序動作規劃,在零樣本測試中展現出強大的任務泛化性能。
在性能評估方面,該模型在三個權威空間理解基準測試中均取得突破性進展。對比基線模型Qwen2.5-VL-7B,其空間感知能力提升達47%,在"no thinking"模式下更達到與Gemini-Robotics-ER 1.5相當的水平。特別在LIBERO仿真基準測試中,多任務處理性能接近理論最優值,驗證了單模型通用化的可行性。
真機實驗環節,基于宇樹G1人形機器人平臺構建的12類操作任務數據集發揮了關鍵作用。通過統一端到端訓練策略,模型在單一策略checkpoint下實現全部任務穩定執行,即使在外部擾動條件下仍保持89%以上的任務成功率。這種抗干擾能力為機器人實際部署提供了重要保障。
目前,該項目已完整開源模型代碼與訓練數據集,開發者可通過項目主頁(https://unigen-x.github.io/unifolm-vla.github.io/)獲取技術文檔,或訪問GitHub倉庫(https://github.com/unitreerobotics/unifolm-vla)參與社區開發。此次開源將推動具身智能領域的技術共享與生態建設,為通用人形機器人的商業化落地奠定基礎。









