鳳凰網(wǎng)科技訊 1月29日,機(jī)器人公司宇樹科技宣布開(kāi)源其視覺(jué)-語(yǔ)言-動(dòng)作(VLA)大模型 UnifoLM-VLA-0。該模型旨在解決傳統(tǒng)視覺(jué)語(yǔ)言大模型(VLM)在物理交互中的局限,通過(guò)針對(duì)性的預(yù)訓(xùn)練,使之從圖文理解能力進(jìn)化成具備物理常識(shí)的“具身大腦”。
據(jù)官方介紹,UnifoLM-VLA-0 是 UnifoLM 系列下專門面向通用人形機(jī)器人操作的模型。其基于開(kāi)源的 Qwen2.5-VL-7B 模型構(gòu)建,使用了覆蓋通用與機(jī)器人場(chǎng)景的多任務(wù)數(shù)據(jù)集進(jìn)行持續(xù)預(yù)訓(xùn)練,以提升模型對(duì)幾何空間與語(yǔ)義邏輯的對(duì)齊能力。
模型的核心突破在于針對(duì)操作任務(wù)的高要求,深度融合了文本指令與2D/3D空間細(xì)節(jié),并構(gòu)建了全鏈路動(dòng)力學(xué)預(yù)測(cè)數(shù)據(jù)以增強(qiáng)任務(wù)泛化性。特別地,宇樹在模型架構(gòu)上集成了動(dòng)作預(yù)測(cè)頭,并對(duì)開(kāi)源數(shù)據(jù)集進(jìn)行了系統(tǒng)化清洗,最終僅利用約340小時(shí)的真機(jī)數(shù)據(jù),結(jié)合動(dòng)作分塊預(yù)測(cè)與動(dòng)力學(xué)約束,實(shí)現(xiàn)了對(duì)復(fù)雜動(dòng)作序列的統(tǒng)一建模與長(zhǎng)時(shí)序規(guī)劃。
評(píng)估結(jié)果顯示,該模型在多個(gè)空間理解基準(zhǔn)上的能力較基礎(chǔ)模型有顯著提升,并在“no thinking”模式下可比肩 Gemini-Robotics-ER 1.5。在 LIBERO 仿真基準(zhǔn)測(cè)試中,其多任務(wù)模型也取得了接近最優(yōu)的性能。
在真機(jī)驗(yàn)證環(huán)節(jié),UnifoLM-VLA-0 在宇樹 G1 人形機(jī)器人平臺(tái)上,僅憑單一策略網(wǎng)絡(luò)即可高質(zhì)量完成開(kāi)閉抽屜、插拔插頭、抓取放置等12類復(fù)雜的操作任務(wù)。官方稱,即使在外部擾動(dòng)條件下,模型也表現(xiàn)出良好的執(zhí)行魯棒性與抗干擾能力。
目前,該模型的項(xiàng)目主頁(yè)與開(kāi)源代碼已在 GitHub 平臺(tái)公布,供開(kāi)發(fā)者與研究人員獲取。











