2月12日 消息:今日,小米科技創(chuàng)始人雷軍在微博上宣布了一項重大技術進展:小米機器人團隊正式開源發(fā)布全新具身智能VLA模型Xiaomi-Robotics-0,并首次對外曝光了真機運行畫面,引發(fā)科技界廣泛關注。
Xiaomi-Robotics-0模型擁有47億參數規(guī)模,不僅具備視覺語言理解能力,還能實現高性能實時執(zhí)行。在三大主流仿真測試中,該模型表現卓越,橫掃行業(yè)標桿,拿下全項SOTA(State-of-the-Art)成績,更在真實機器人上實現了流暢動作,標志著小米在機器人領域取得了關鍵性突破。
尤為引人注目的是,Xiaomi-Robotics-0能在普通消費級顯卡上實現實時推理,這一特性直接打破了高端機器人模型只能依賴昂貴專業(yè)顯卡運行的局限,降低了具身智能技術的落地門檻,讓更多普通開發(fā)者和團隊能夠接觸并應用這一先進技術。
長期以來,機器人模型面臨著推理延遲高、動作不連貫以及硬件門檻極高等核心痛點。傳統(tǒng)VLA模型在真實物理世界中表現遲鈍,動作斷斷續(xù)續(xù),難以像人類一樣自然操作。而高性能模型則往往需要昂貴的專業(yè)顯卡支持,限制了技術的普及和應用。小米此次發(fā)布的Xiaomi-Robotics-0模型,正是針對這些行業(yè)頑疾進行了深入研究和創(chuàng)新。
小米自研的Mixture-of-Transformers(MoT)混合架構為機器人裝上了“雙腦協(xié)同系統(tǒng)”,兼顧了決策與執(zhí)行效率。視覺語言大腦(VLM)負責聽懂人話、看懂環(huán)境,精準理解空間關系和任務目標;動作執(zhí)行小腦(DiT)則專門負責將指令轉化為絲滑動作,保證精準穩(wěn)定。這一架構從根本上解決了傳統(tǒng)模型動作斷層的痛點,讓機器人動作更加接近人類靈活度。
小米團隊還設計了兩階段訓練方案,通過跨模態(tài)預訓練和后訓練優(yōu)化,確保模型在學動作的同時不丟失基礎能力,并大幅提升環(huán)境適配能力。從曝光的真機視頻中可以看到,無論是處理軟塌塌的柔性物體如毛巾,還是面對剛性積木,機器人都能從容完成,手眼協(xié)調穩(wěn)定,不會出現卡頓或失誤。
在Libero、Calvin、SimplerEnv三大全球主流具身智能測試集中,Xiaomi-Robotics-0對標超過30款主流模型,在所有基準測試中全部拿下SOTA成績,用實打實的數據證明了其行業(yè)領先地位。
更令人稱贊的是小米的開放格局。此次成果全量開源,技術主頁、GitHub開源代碼、Hugging Face模型權重全部公開,全球開發(fā)者都能免費使用、二次開發(fā)。這一舉措徹底打破了大廠對具身智能核心技術的壟斷,加速了整個行業(yè)的技術迭代。











