機器人領域迎來重要進展,宇樹科技正式開源其最新研發的視覺-語言-動作(VLA)大模型UnifoLM-VLA-0。這款模型突破了傳統視覺語言大模型(VLM)在物理交互方面的瓶頸,通過專項預訓練技術,將單純的圖文理解能力升級為具備物理常識的"具身智能",為機器人操作提供更強大的認知支撐。
作為UnifoLM系列的首個操作型模型,UnifoLM-VLA-0以開源的Qwen2.5-VL-7B為基礎架構,采用通用場景與機器人場景相結合的多任務數據集進行持續訓練。這種設計使模型在幾何空間感知與語義邏輯理解方面形成精準對齊,特別強化了對三維空間關系的解析能力。研發團隊通過構建全鏈路動力學預測數據集,有效提升了模型的任務泛化性能。
該模型的創新性體現在架構設計與數據處理兩個維度。技術團隊在模型頂層集成了動作預測模塊,同時對訓練數據實施系統化清洗流程,最終僅使用約340小時的真實機器人操作數據,就實現了復雜動作序列的統一建模。通過引入動作分塊預測機制與動力學約束算法,模型能夠完成長時序操作規劃,這在同類模型中屬于領先水平。
性能評估顯示,UnifoLM-VLA-0在多個空間認知基準測試中表現優異,其核心指標較基礎模型提升幅度顯著。在"無思考"模式下,該模型的操作精度已達到國際先進水平,與Gemini-Robotics-ER 1.5模型不相上下。在LIBERO仿真測試平臺上,其多任務處理能力更接近理論最優值,驗證了架構設計的有效性。
實際部署測試進一步證實了模型實用性。在宇樹G1人形機器人平臺上,單一策略網絡即可精準執行開抽屜、插拔電源、物品抓取等12類復雜操作。特別值得關注的是,當面臨外部干擾時,系統仍能保持操作穩定性,展現出較強的環境適應能力。這種魯棒性源于訓練階段對擾動場景的專項優化。
目前,該模型的完整技術文檔與開源代碼已在GitHub平臺公開,全球開發者均可自由獲取。此舉將加速具身智能技術的普及,為機器人操作系統的研發提供新的技術路徑。項目負責人表示,持續優化的數據集與訓練方法將是后續研發的重點方向。











