滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

小米發布并開源VLA模型Xiaomi-Robotics-0 兼具高性能與物理智能泛化能力

時間：2026-02-12 13:24:25 來源：ITBEAR編輯：快訊 IP：北京 發表評論無障礙通道

小米公司今日正式推出開源視覺語言動作（VLA）模型Xiaomi-Robotics-0，該模型憑借47億參數規模與獨特的架構設計，在仿真測試與真實機器人任務中均取得突破性表現。其核心優勢在于實現"感知-決策-執行"閉環的物理智能，能夠在消費級顯卡上完成實時推理，為機器人領域帶來新的技術范式。

該模型采用Mixture-of-Transformers（MoT）混合架構，通過視覺語言大腦（VLM）與動作執行小腦（Action Expert）的協同工作實現復雜任務處理。VLM模塊基于多模態大模型構建，可理解"整理桌面"等模糊指令并解析空間關系；Action Expert模塊則通過多層Diffusion Transformer（DiT）生成平滑動作序列，其獨創的"動作塊"輸出方式配合流匹配技術，使機械臂操作精度達到毫米級。

針對傳統VLA模型訓練中常見的"理解力退化"問題，研發團隊創新性地采用混合訓練策略。在預訓練階段同時輸入多模態數據與動作數據，使模型在掌握操作技能的同時保持物體檢測、視覺問答等認知能力。通過引入Action Proposal機制，強制VLM在圖像理解過程中預測動作分布，實現特征空間與動作空間的對齊。專項訓練階段則凍結VLM參數，僅優化DiT模塊，最終生成的動作序列平滑度提升40%。

為解決推理延遲導致的動作斷層，技術團隊開發了異步推理模式。該機制通過解耦模型推理與機器人執行的時序約束，配合Clean Action Prefix技術將前序動作作為輸入，確保操作連貫性。特別設計的Λ-shape注意力掩碼，使模型更聚焦當前視覺反饋而非歷史數據，在突發干擾測試中，機器人響應速度較傳統模型提升2.3倍。

在性能驗證環節，Xiaomi-Robotics-0在LIBERO、CALVIN等三大仿真平臺30項基準測試中全部刷新最優紀錄。真實場景測試中，搭載該模型的雙臂機器人成功完成積木拆解與毛巾折疊任務，展現出對剛性與柔性物體的精準操控能力。多模態能力評估顯示，其在具身交互相關測試中的準確率較前代模型提升27%，特別是在處理遮擋物體與動態場景時表現突出。

該模型現已通過開源形式向學術界與產業界開放，包含完整技術文檔、訓練代碼及預訓練權重。開發者可通過GitHub與Hugging Face平臺獲取資源，技術主頁詳細介紹了模型架構、訓練方法與部署指南。此舉有望加速機器人智能體從實驗室走向實際應用的進程，為智能制造、家庭服務等領域提供新的技術解決方案。

更多>同類資訊

抖音電商1月商家投訴數據曝光：退款封店問題頻發商家權益如何保障？

1月6日，吉林省的食品生鮮商家王先生投訴稱，顧客在其店鋪購買商品后申請退貨，退回的商品明顯消耗了110g。對此，抖音電商回復：您好，經核查，關于您反饋的問題，平臺已致電與您聯系告知：反饋復核該訂單買家反饋…

02-12

EATI破局：從OpenClaw爆火看Agent互聯如何筑牢信任基石

其實OpenClaw/Moltbook的問題，不是技術本身的問題，而是智能體互聯網的底層信任體系的缺失引發的危機：一是身份危機，Agent的身份僅為本地一串代碼或文件，易被篡改、復制、丟棄，無法對應現實世界…

02-12

聯想2025╱26財年三季報亮眼：營收利潤雙增，AI業務成強勁引擎

02-12

谷歌AI商業化再提速：搜索與Gemini嵌入購物功能，探索變現新路徑

谷歌在周三致廣告業界的信函中透露，公司正在谷歌搜索 AI 模式中測試全新廣告形式，允許零售商及其他廣告主在該場景下展示商品。“我們并非簡單地將廣告植入搜索的 AI 體驗，而是在重新定義廣告本身，”谷歌廣告…

02-12

豆包大模型2.0等2月14日升級發布基礎及創作能力將迎重大突破

與追求極致美學的前代Seedream 4.5不同，Seedream 5.0定位為 “知識推理與智能編輯”預覽版，核心創新包括：首次引入實時檢索增強能力，可獲取最新知識和資訊，精準響應具有時效性的創作需求；世…

02-12

OPPO、vivo強勢入局影像賽道，大疆Osmo Pocket系列迎來勁敵挑戰

02-12

新一代小米SU7卡布里藍明日到店，春節7城30店正常營業迎客

02-12

阿里千問“春節30億免單”發力，上線次日DAU達7352萬，連續6天霸榜

02-12

字節跳動火山引擎定檔2026年2月14日，豆包大模型等多款模型將迎重要升級

02-12

Alphabet財報會“沉默以對” 谷歌蘋果AI合作前景成謎

02-12

Meta為Facebook注入AI新活力：頭像動畫、圖片編輯、文字背景功能煥新升級

02-12

Meta上線"Dear Algo"新功能：用戶可用自然語言定制Threads內容推薦

02-12

阿里微信端上線多款短劇小程序，免費模式試水短劇賽道積累用戶洞察

02-12

網易游戲2025年營收超920億：《燕云》出海大獲成功，《遺忘之海》Q3將至

02-12

京東攜手美的、海爾、海信、TCL簽2026年合作協議，共拓市場創佳績

02-12

點擊查看更多 +

全站最新

恒指跌1% 恒科指跌近2%

港股異動丨MiniMax大漲13%，M2.5模型即將正式上線

CPO概念股集體走強，創業板人工智能ETF漲超2%

儲能電池板塊上漲，儲能電池ETF易方達、儲能電池ETF廣發漲超3%

港股異動丨重型機械股繼續拉升中國重汽盤中飆漲14%再創新高

港股異動丨石油股活躍中國石油化工漲超2%刷新歷史新高

熱門內容

本欄最新

智譜GLM-5模型正式開源上線：國產芯片助力，Agent能力達開源SOTA水平

小年夜雷軍工廠直播：初代SU7謝幕，新一代SU7如何扛起小米汽車新征程？

傳字節跳動與三星洽談AI芯片代工合作，計劃今年量產或達35萬顆

小年夜雷軍工廠直播：初代SU7謝幕，新一代SU7如何扛起小米汽車新征程？

特斯拉Semi電動卡車售價揭曉：標準版25萬、長續航版29萬美元，今年量產

EZ-60智能化升級來襲！自定義泊車+應用煥新解鎖多元駕乘新體驗

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

小米發布并開源VLA模型Xiaomi-Robotics-0 兼具高性能與物理智能泛化能力