近日,科技領域迎來一項重要突破——宇樹科技正式開源其最新研發的視覺-語言-動作(VLA)大模型UnifoLM-VLA-0。這款模型專為通用人形機器人操作設計,標志著人工智能在物理交互領域邁出關鍵一步。
傳統視覺-語言模型(VLM)在處理物理世界任務時存在明顯短板,例如難以理解空間關系、缺乏物理常識等。UnifoLM-VLA-0通過針對性預訓練,成功突破這些限制。研發團隊在機器人操作數據集上進行了深度優化,使模型能夠從單純的"圖文理解"升級為具備物理認知能力的"具身大腦"。這種進化讓機器人不僅能"看懂"指令,更能"感受"環境、預測動作結果。
技術實現層面,該模型創新性地融合了多模態感知與空間推理能力。針對操作任務中常見的指令理解難題,模型通過構建文本指令與2D/3D空間信息的映射關系,顯著提升了空間定位精度。更值得關注的是,研發團隊引入全鏈路動力學預測數據,使模型能夠模擬物理世界的因果關系,從而在未接觸過的場景中也能生成合理動作策略。
實際測試數據印證了技術突破的價值。在真實機器人驗證環節,UnifoLM-VLA-0僅需單一策略就完成了12類復雜操作任務,包括精密裝配、動態避障等高難度場景。任務完成質量達到行業領先水平,特別是在需要多步驟協同的操作中,模型展現出的泛化能力令人矚目。這項成果為服務機器人、工業自動化等領域提供了新的技術路徑。











