宇樹科技近日宣布,其自主研發(fā)的通用人形機(jī)器人操作大模型UnifoLM-VLA-0正式開源。該模型通過單一策略網(wǎng)絡(luò)實(shí)現(xiàn)多項(xiàng)復(fù)雜操作任務(wù),在空間感知、任務(wù)推理和抗干擾能力方面取得突破性進(jìn)展,標(biāo)志著人形機(jī)器人向通用化能力構(gòu)建邁出關(guān)鍵一步。
基于開源視覺語言模型Qwen2.5-VL-7B演化而來的UnifoLM-VLA-0,通過構(gòu)建覆蓋機(jī)器人操作與通用場景的多任務(wù)數(shù)據(jù)集進(jìn)行持續(xù)預(yù)訓(xùn)練。該數(shù)據(jù)集整合2D檢測分割、3D目標(biāo)定位、空間位置推理等12類維度數(shù)據(jù),僅使用340小時(shí)真機(jī)操作數(shù)據(jù)即完成離散動(dòng)作預(yù)測訓(xùn)練。模型采用動(dòng)作分塊預(yù)測與雙向動(dòng)力學(xué)約束技術(shù),使機(jī)器人能夠理解"物體-機(jī)械臂"交互規(guī)律,支持更長時(shí)序的動(dòng)作規(guī)劃。
在空間理解能力測試中,該模型展現(xiàn)顯著優(yōu)勢。在ERQA、RoboSpatial、Where2Place三項(xiàng)基準(zhǔn)測試中,其"無思考模式"表現(xiàn)與谷歌Gemini Robotics ER 1.5持平。在LIBERO仿真基準(zhǔn)測試中,模型以98.7分的平均成績領(lǐng)先同類產(chǎn)品,其中"物體"子項(xiàng)獲得滿分,在長序列任務(wù)中仍保持96.2分的高水準(zhǔn)。這種內(nèi)化的空間理解能力使機(jī)器人具備低延遲實(shí)時(shí)操作潛力,特別適合動(dòng)態(tài)環(huán)境下的快速響應(yīng)需求。
真機(jī)實(shí)驗(yàn)驗(yàn)證了模型的泛化能力。在宇樹G1機(jī)器人平臺(tái)上,單一策略網(wǎng)絡(luò)成功駕馭12類復(fù)雜任務(wù),涵蓋整理收納、多機(jī)協(xié)作、帶阻力操作等場景。實(shí)驗(yàn)顯示,機(jī)器人能協(xié)作完成餐盤收納、藥品分裝等任務(wù),當(dāng)遇到人為干擾時(shí),仍可自主調(diào)整策略完成積木堆疊、水果分類等操作。特別在抗干擾測試中,被移走已堆疊積木的機(jī)器人能即時(shí)重新規(guī)劃動(dòng)作序列,展現(xiàn)強(qiáng)魯棒性。
技術(shù)突破的背后是算法架構(gòu)的創(chuàng)新。模型通過集成多模態(tài)感知與空間推理模塊,將幾何空間理解與語義邏輯對齊能力提升至新高度。在零樣本場景下,機(jī)器人可自主完成目標(biāo)檢測、運(yùn)動(dòng)軌跡生成、可抓取點(diǎn)判斷等全流程操作。這種"感知-決策-執(zhí)行"的閉環(huán)設(shè)計(jì),有效解決了傳統(tǒng)機(jī)器人需要針對每個(gè)任務(wù)單獨(dú)訓(xùn)練的碎片化問題。
作為全球人形機(jī)器人銷量領(lǐng)先企業(yè),宇樹科技正加速構(gòu)建軟硬件協(xié)同壁壘。UnifoLM-VLA-0的推出不僅完善了其技術(shù)生態(tài)鏈,更通過開源策略推動(dòng)行業(yè)共同發(fā)展。該模型展現(xiàn)的少樣本訓(xùn)練效率與強(qiáng)泛化能力,為機(jī)器人從工業(yè)場景向服務(wù)領(lǐng)域滲透提供了關(guān)鍵技術(shù)支撐,有望重新定義人機(jī)協(xié)作的邊界。











