小米公司今日正式發(fā)布開源視覺語言動(dòng)作(VLA)模型Xiaomi-Robotics-0,該模型憑借47億參數(shù)規(guī)模,在視覺語言理解與實(shí)時(shí)動(dòng)作執(zhí)行領(lǐng)域?qū)崿F(xiàn)突破性進(jìn)展。通過創(chuàng)新的"感知-決策-執(zhí)行"閉環(huán)架構(gòu),模型在仿真測試與真實(shí)機(jī)器人任務(wù)中均展現(xiàn)出卓越性能,尤其在處理復(fù)雜物理交互任務(wù)時(shí)表現(xiàn)出色,現(xiàn)已開放技術(shù)文檔、源代碼及模型權(quán)重供全球開發(fā)者使用。
該模型采用Mixture-of-Transformers(MoT)混合架構(gòu),由視覺語言大腦(VLM)與動(dòng)作執(zhí)行小腦(Action Expert)兩大核心模塊構(gòu)成。VLM模塊基于多模態(tài)大模型構(gòu)建,可精準(zhǔn)解析人類模糊指令(如"整理桌面"),并從高清視覺輸入中提取空間關(guān)系信息;Action Expert模塊則通過多層Diffusion Transformer(DiT)架構(gòu),創(chuàng)新性采用"動(dòng)作塊"生成機(jī)制,配合流匹配技術(shù)確保動(dòng)作序列的平滑性與精準(zhǔn)度。這種設(shè)計(jì)使模型既能理解復(fù)雜語義,又能實(shí)現(xiàn)高頻動(dòng)作控制。
針對(duì)傳統(tǒng)VLA模型在動(dòng)作學(xué)習(xí)過程中容易喪失理解能力的問題,研發(fā)團(tuán)隊(duì)提出混合訓(xùn)練策略:在預(yù)訓(xùn)練階段同步輸入多模態(tài)數(shù)據(jù)與動(dòng)作數(shù)據(jù),使模型在掌握操作技能的同時(shí),保持物體檢測、視覺問答等認(rèn)知能力。具體訓(xùn)練流程分為三個(gè)階段:首先通過Action Proposal機(jī)制強(qiáng)制VLM預(yù)測動(dòng)作分布,實(shí)現(xiàn)特征空間與動(dòng)作空間的對(duì)齊;隨后凍結(jié)VLM參數(shù),專項(xiàng)訓(xùn)練DiT模塊學(xué)習(xí)從噪聲中恢復(fù)精準(zhǔn)動(dòng)作序列;最后通過目標(biāo)任務(wù)后訓(xùn)練優(yōu)化整體性能。
為解決推理延遲導(dǎo)致的動(dòng)作斷層問題,團(tuán)隊(duì)開發(fā)異步推理模式,使模型推理與機(jī)器人運(yùn)行解耦,通過Clean Action Prefix機(jī)制將前序動(dòng)作作為輸入,確保動(dòng)作軌跡的時(shí)間連續(xù)性。同時(shí)引入Λ-shape Attention Mask特殊注意力掩碼,強(qiáng)制模型優(yōu)先處理當(dāng)前視覺反饋,有效抑制歷史慣性影響,使機(jī)器人在環(huán)境突變時(shí)能快速調(diào)整動(dòng)作策略。這些技術(shù)創(chuàng)新使模型在消費(fèi)級(jí)顯卡上即可實(shí)現(xiàn)實(shí)時(shí)推理,動(dòng)作響應(yīng)延遲降低60%以上。
在性能驗(yàn)證方面,Xiaomi-Robotics-0在LIBERO、CALVIN和SimplerEnv三大仿真基準(zhǔn)測試中,包攬全部30項(xiàng)評(píng)測指標(biāo)的第一名,刷新多項(xiàng)SOTA紀(jì)錄。真實(shí)場景測試中,搭載該模型的雙臂機(jī)器人在積木拆解與毛巾折疊任務(wù)中,展現(xiàn)出卓越的手眼協(xié)調(diào)能力,能精準(zhǔn)處理剛性物體與柔性織物的物理特性差異。特別在多模態(tài)理解測試中,模型在具身交互相關(guān)基準(zhǔn)上的表現(xiàn)顯著優(yōu)于同類模型,驗(yàn)證了其視覺語言理解與動(dòng)作控制的協(xié)同優(yōu)化效果。
目前,小米已通過GitHub與Hugging Face平臺(tái)開放模型資源,包括完整技術(shù)文檔、訓(xùn)練代碼及預(yù)訓(xùn)練權(quán)重。開發(fā)者可訪問https://xiaomi-robotics-0.github.io獲取詳細(xì)資料,或通過https://github.com/XiaomiRobotics/Xiaomi-Robotics-0直接參與項(xiàng)目開發(fā)。此次開源將推動(dòng)具身智能技術(shù)在機(jī)器人、智能制造等領(lǐng)域的落地應(yīng)用,為全球研究者提供高性能的基礎(chǔ)模型框架。
















