小米公司今日正式推出開源視覺語言動作(VLA)模型Xiaomi-Robotics-0,該模型憑借47億參數規模與獨特的架構設計,在仿真測試與真實機器人任務中均取得突破性表現。其核心優勢在于實現"感知-決策-執行"閉環的物理智能,能夠在消費級顯卡上完成實時推理,為機器人領域帶來新的技術范式。
該模型采用Mixture-of-Transformers(MoT)混合架構,通過視覺語言大腦(VLM)與動作執行小腦(Action Expert)的協同工作實現復雜任務處理。VLM模塊基于多模態大模型構建,可理解"整理桌面"等模糊指令并解析空間關系;Action Expert模塊則通過多層Diffusion Transformer(DiT)生成平滑動作序列,其獨創的"動作塊"輸出方式配合流匹配技術,使機械臂操作精度達到毫米級。
針對傳統VLA模型訓練中常見的"理解力退化"問題,研發團隊創新性地采用混合訓練策略。在預訓練階段同時輸入多模態數據與動作數據,使模型在掌握操作技能的同時保持物體檢測、視覺問答等認知能力。通過引入Action Proposal機制,強制VLM在圖像理解過程中預測動作分布,實現特征空間與動作空間的對齊。專項訓練階段則凍結VLM參數,僅優化DiT模塊,最終生成的動作序列平滑度提升40%。
為解決推理延遲導致的動作斷層,技術團隊開發了異步推理模式。該機制通過解耦模型推理與機器人執行的時序約束,配合Clean Action Prefix技術將前序動作作為輸入,確保操作連貫性。特別設計的Λ-shape注意力掩碼,使模型更聚焦當前視覺反饋而非歷史數據,在突發干擾測試中,機器人響應速度較傳統模型提升2.3倍。
在性能驗證環節,Xiaomi-Robotics-0在LIBERO、CALVIN等三大仿真平臺30項基準測試中全部刷新最優紀錄。真實場景測試中,搭載該模型的雙臂機器人成功完成積木拆解與毛巾折疊任務,展現出對剛性與柔性物體的精準操控能力。多模態能力評估顯示,其在具身交互相關測試中的準確率較前代模型提升27%,特別是在處理遮擋物體與動態場景時表現突出。
該模型現已通過開源形式向學術界與產業界開放,包含完整技術文檔、訓練代碼及預訓練權重。開發者可通過GitHub與Hugging Face平臺獲取資源,技術主頁詳細介紹了模型架構、訓練方法與部署指南。此舉有望加速機器人智能體從實驗室走向實際應用的進程,為智能制造、家庭服務等領域提供新的技術解決方案。















