小米科技在機器人領域實現重大突破,其機器人團隊近日正式開源發布全新具身智能VLA模型Xiaomi-Robotics-0,并首次對外公開真機運行畫面,迅速引發科技界高度關注。該模型憑借47億參數規模,不僅具備強大的視覺語言理解能力,還能實現高性能實時執行,為機器人技術發展注入新動能。
在Libero、Calvin、SimplerEnv三大全球主流具身智能測試集中,Xiaomi-Robotics-0對標超過30款主流模型,在所有基準測試中均取得SOTA(State-of-the-Art)成績,全面超越行業標桿。這一成果不僅體現在仿真環境中的卓越表現,更在真實機器人上實現了流暢動作,標志著小米在機器人領域取得關鍵性進展。
傳統機器人模型長期面臨推理延遲高、動作不連貫、硬件門檻高等核心痛點。高性能模型往往需要依賴昂貴的專業顯卡,限制了技術普及與應用。而Xiaomi-Robotics-0的創新之處在于,它能在普通消費級顯卡上實現實時推理,大幅降低具身智能技術的落地門檻,讓更多開發者和團隊能夠接觸并應用這一先進技術。
小米自研的Mixture-of-Transformers(MoT)混合架構為機器人賦予“雙腦協同系統”,從根本上解決了傳統模型動作斷層的難題。視覺語言大腦(VLM)負責理解人類指令和環境信息,精準把握空間關系和任務目標;動作執行小腦(DiT)則將指令轉化為流暢動作,確保精準穩定。這一架構使機器人動作更加接近人類靈活度,顯著提升操作自然性。
為進一步提升模型性能,小米團隊設計了兩階段訓練方案。通過跨模態預訓練和后訓練優化,模型在學習動作的同時保持基礎能力,并大幅提升環境適配能力。從公開的真機視頻中可見,無論是處理柔性物體如毛巾,還是操作剛性積木,機器人均能穩定完成,手眼協調無卡頓或失誤,展現出強大的環境適應能力。
此次發布中,小米展現開放格局,將成果全量開源。技術主頁、GitHub開源代碼及Hugging Face模型權重全部公開,全球開發者均可免費使用并進行二次開發。這一舉措打破了大廠對具身智能核心技術的壟斷,為行業技術迭代提供強大助力,推動整個領域向更開放、更創新的方向發展。













