小米近日在具身智能領域邁出重要一步,正式推出并開源首款機器人視覺語言動作(VLA)大模型Xiaomi-Robotics-0。該模型以47億參數規模實現視覺語言理解與實時動作執行的深度融合,在消費級顯卡上即可完成毫秒級推理,成功突破傳統VLA模型因延遲導致的物理世界交互瓶頸,多項性能指標刷新行業紀錄。
針對現有VLA模型普遍存在的"大腦發達但肢體遲緩"問題,研發團隊創新采用MoT混合架構構建雙核心體系。其中多模態視覺語言大模型(VLM)作為認知中樞,可解析人類模糊指令并精準識別三維空間關系;多層擴散Transformer(DiT)構成的運動控制模塊則通過"動作塊"生成技術,將復雜動作拆解為高頻執行單元,配合流匹配算法實現肢體運動的毫米級精度控制。這種"認知-執行"分離設計使機器人既能理解"把水杯遞給穿紅衣服的人"這類抽象指令,又能流暢完成抓取、遞送等連續動作。
在訓練體系構建上,小米開創性設計兩階段強化方案。跨模態預訓練階段通過Action Proposal機制建立視覺特征與動作空間的映射關系,在凍結VLM參數的同時專項優化DiT模塊,確保模型同時具備物體識別、邏輯推理等基礎能力與操作技能。后訓練階段引入異步推理框架破解真機部署難題,Clean Action Prefix技術保障動作序列的連貫性,Λ-shape注意力掩碼則使模型更聚焦實時視覺反饋,環境適應速度提升3倍以上。
目前該項目已實現全面開源,技術文檔、訓練代碼及預訓練權重均對外開放。小米機器人實驗室同步啟動全球人才招募計劃,重點引進多模態學習、運動控制、人機交互等領域的頂尖專家,持續探索物理世界與數字智能的融合邊界。此次開源不僅為學術界提供先進研究基線,更為工業界落地具身智能應用掃清關鍵技術障礙。
















