小米公司今日宣布,其機器人團隊在具身智能領域取得重大突破,正式開源新一代視覺語言動作大模型Xiaomi-Robotics-0。該模型憑借47億參數規模,在仿真環境與真實物理世界中均展現出卓越性能,成功刷新多項行業基準測試紀錄。
據技術團隊介紹,Xiaomi-Robotics-0突破性實現了視覺理解、語言交互與動作執行的深度融合。在仿真測試環節,該模型在三大權威數據集上均取得領先成績,其物理智能泛化能力尤為突出——真實機器人搭載后,可完成復雜場景下的連續動作規劃,響應速度較前代產品提升300%,且能在消費級顯卡上實現每秒20幀以上的實時推理。
小米集團董事長雷軍在發布會上透露,公司自2016年便啟動機器人核心技術預研,累計投入超20億元研發資金。此次開源的模型架構包含多模態感知、跨模態對齊和動態決策三大模塊,其創新設計的分層注意力機制,使機器人能同時處理視覺、語言和運動信息,在動態環境中保持穩定操作。
技術文檔顯示,該模型在真實場景測試中展現出驚人適應力:面對未訓練過的物體抓取任務,成功率達92%;在包含障礙物的導航測試中,路徑規劃效率提升45%。更值得關注的是,其輕量化設計使模型可部署于主流機器人平臺,為行業開發者提供標準化解決方案。
小米同步開放模型代碼、訓練框架及預訓練權重,并推出開發者社區支持計劃。雷軍表示:"我們將持續推進核心技術開源,未來三個月內將發布機器人操作系統的中間件框架,歡迎全球開發者共同完善生態。"目前已有超過50家科研機構申請加入聯合研發計劃。











