岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear旗下自媒體矩陣:

小米發(fā)布開源VLA模型Xiaomi-Robotics-0 兼具視覺語言理解與高性能實(shí)時(shí)執(zhí)行能力

   時(shí)間:2026-02-12 16:43:25 來源:快訊編輯:快訊 IP:北京 發(fā)表評(píng)論無障礙通道
 

小米公司今日正式發(fā)布開源視覺語言動(dòng)作(VLA)模型Xiaomi-Robotics-0,該模型憑借47億參數(shù)規(guī)模,在視覺語言理解與實(shí)時(shí)動(dòng)作執(zhí)行領(lǐng)域?qū)崿F(xiàn)突破性進(jìn)展。通過創(chuàng)新的"感知-決策-執(zhí)行"閉環(huán)架構(gòu),模型在仿真測試與真實(shí)機(jī)器人任務(wù)中均展現(xiàn)出卓越性能,尤其在處理復(fù)雜物理交互任務(wù)時(shí)表現(xiàn)出色,現(xiàn)已開放技術(shù)文檔、源代碼及模型權(quán)重供全球開發(fā)者使用。

該模型采用Mixture-of-Transformers(MoT)混合架構(gòu),由視覺語言大腦(VLM)與動(dòng)作執(zhí)行小腦(Action Expert)兩大核心模塊構(gòu)成。VLM模塊基于多模態(tài)大模型構(gòu)建,可精準(zhǔn)解析人類模糊指令(如"整理桌面"),并從高清視覺輸入中提取空間關(guān)系信息;Action Expert模塊則通過多層Diffusion Transformer(DiT)架構(gòu),創(chuàng)新性采用"動(dòng)作塊"生成機(jī)制,配合流匹配技術(shù)確保動(dòng)作序列的平滑性與精準(zhǔn)度。這種設(shè)計(jì)使模型既能理解復(fù)雜語義,又能實(shí)現(xiàn)高頻動(dòng)作控制。

針對(duì)傳統(tǒng)VLA模型在動(dòng)作學(xué)習(xí)過程中容易喪失理解能力的問題,研發(fā)團(tuán)隊(duì)提出混合訓(xùn)練策略:在預(yù)訓(xùn)練階段同步輸入多模態(tài)數(shù)據(jù)與動(dòng)作數(shù)據(jù),使模型在掌握操作技能的同時(shí),保持物體檢測、視覺問答等認(rèn)知能力。具體訓(xùn)練流程分為三個(gè)階段:首先通過Action Proposal機(jī)制強(qiáng)制VLM預(yù)測動(dòng)作分布,實(shí)現(xiàn)特征空間與動(dòng)作空間的對(duì)齊;隨后凍結(jié)VLM參數(shù),專項(xiàng)訓(xùn)練DiT模塊學(xué)習(xí)從噪聲中恢復(fù)精準(zhǔn)動(dòng)作序列;最后通過目標(biāo)任務(wù)后訓(xùn)練優(yōu)化整體性能。

為解決推理延遲導(dǎo)致的動(dòng)作斷層問題,團(tuán)隊(duì)開發(fā)異步推理模式,使模型推理與機(jī)器人運(yùn)行解耦,通過Clean Action Prefix機(jī)制將前序動(dòng)作作為輸入,確保動(dòng)作軌跡的時(shí)間連續(xù)性。同時(shí)引入Λ-shape Attention Mask特殊注意力掩碼,強(qiáng)制模型優(yōu)先處理當(dāng)前視覺反饋,有效抑制歷史慣性影響,使機(jī)器人在環(huán)境突變時(shí)能快速調(diào)整動(dòng)作策略。這些技術(shù)創(chuàng)新使模型在消費(fèi)級(jí)顯卡上即可實(shí)現(xiàn)實(shí)時(shí)推理,動(dòng)作響應(yīng)延遲降低60%以上。

在性能驗(yàn)證方面,Xiaomi-Robotics-0在LIBERO、CALVIN和SimplerEnv三大仿真基準(zhǔn)測試中,包攬全部30項(xiàng)評(píng)測指標(biāo)的第一名,刷新多項(xiàng)SOTA紀(jì)錄。真實(shí)場景測試中,搭載該模型的雙臂機(jī)器人在積木拆解與毛巾折疊任務(wù)中,展現(xiàn)出卓越的手眼協(xié)調(diào)能力,能精準(zhǔn)處理剛性物體與柔性織物的物理特性差異。特別在多模態(tài)理解測試中,模型在具身交互相關(guān)基準(zhǔn)上的表現(xiàn)顯著優(yōu)于同類模型,驗(yàn)證了其視覺語言理解與動(dòng)作控制的協(xié)同優(yōu)化效果。

目前,小米已通過GitHub與Hugging Face平臺(tái)開放模型資源,包括完整技術(shù)文檔、訓(xùn)練代碼及預(yù)訓(xùn)練權(quán)重。開發(fā)者可訪問https://xiaomi-robotics-0.github.io獲取詳細(xì)資料,或通過https://github.com/XiaomiRobotics/Xiaomi-Robotics-0直接參與項(xiàng)目開發(fā)。此次開源將推動(dòng)具身智能技術(shù)在機(jī)器人、智能制造等領(lǐng)域的落地應(yīng)用,為全球研究者提供高性能的基礎(chǔ)模型框架。

 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 少妇一级淫片免费看 | 欧美三级在线看 | 午夜国产免费 | 国产毛片视频 | aaa一区二区三区 | 国产三级一区二区 | 日韩精美视频 | 成人黄视频 | 婷婷丁香在线 | 在线视频区 | 国产成人三级视频 | 亚洲天堂一区在线 | 九七超碰在线 | 中文字幕在线观看1 | 四虎在线免费视频 | 色网站在线免费观看 | 久草不卡| 五月天少妇 | 国产免费一区二区三区免费视频 | 私库av在线 | 懂色av一区二区 | 黄色片免费网站 | 日本中文字幕在线观看视频 | 成人免费视频视频 | 天天综合精品 | 欧美国产第一页 | 放几个免费的毛片出来看 | 福利资源在线观看 | 99热这里精品 | 天堂久久精品 | 日本黄色大片网站 | 国产ts人妖调教重口男 | 日韩影院一区二区 | 日本国产在线 | 亚洲精品综合网 | 国语对白做受69 | 久久综合爱 | 成人高清免费 | 日日夜夜视频 | 久久这里只有精品99 | 成年人网站免费在线观看 |