近日,宇樹科技宣布開源其最新研發的通用人形機器人操作大模型UnifoLM-VLA-0,標志著視覺-語言-動作(VLA)領域的技術突破。該模型基于Qwen2.5-VL-7B開源框架構建,通過整合機器人操作數據與通用場景的多任務數據集,實現了從傳統圖文理解向具備物理常識的"具身智能"的跨越式發展。
針對機器人操作任務中指令理解與空間感知的核心需求,研發團隊創新性地構建了包含2D檢測分割、3D目標定位、空間推理及軌跡預測的多維數據集。通過約340小時的真機操作數據預訓練,模型實現了文本指令與空間信息的深度融合,在單一策略網絡下即可完成12類復雜操作任務。實驗數據顯示,該模型在真機環境中展現出卓越的抗干擾能力,即使面對外部擾動仍能保持穩定執行。
技術實現層面,模型采用動作分塊預測與雙向動力學約束機制,構建了全鏈路動力學預測模型。這種設計使系統能夠統一建模動作序列,深入理解機器人與物體的物理交互規律,從而支持長時序動作規劃。在LIBERO仿真基準測試中,多任務模型性能接近理論最優值,驗證了其單模型處理多任務的能力。
評估結果顯示,UnifoLM-VLA-0在空間感知與理解能力上較基礎模型提升顯著,在"no thinking"模式下可與Gemini-Robotics-ER 1.5等國際先進模型媲美。基于該模型的動作預測頭(ActionHead)集成方案,為機器人提供了更精準的決策支持,在仿真與真實環境中均驗證了其通用性優勢。
目前,宇樹科技已開放模型代碼與數據集下載,項目主頁提供詳細技術文檔與演示案例。這一開源舉措有望推動具身智能領域的技術發展,為通用人形機器人的商業化應用奠定基礎。相關資源可通過GitHub平臺獲取,開發者可基于現有框架進行二次開發與創新應用。











