生數(shù)科技與清華大學(xué)聯(lián)合研發(fā)的統(tǒng)一世界模型Motus近日正式開源,這一成果在具身智能領(lǐng)域引發(fā)廣泛關(guān)注。該模型以視頻大模型為基礎(chǔ)架構(gòu),在多項核心任務(wù)中展現(xiàn)出顯著優(yōu)勢,較國際主流VLA模型Pi0.5成功率提升約40%,為具身智能的規(guī)模化擴(kuò)展提供了可行路徑。
研究團(tuán)隊指出,視頻數(shù)據(jù)天然包含物理世界的時空結(jié)構(gòu)、因果關(guān)系與動態(tài)變化,是連接感知與行動的關(guān)鍵多模態(tài)載體。Motus突破傳統(tǒng)具身智能系統(tǒng)"感知-推理-行動"的模塊化設(shè)計,通過統(tǒng)一框架整合了VLA、世界模型、視頻生成模型等五類基礎(chǔ)范式,構(gòu)建了從感知到執(zhí)行的端到端建模路徑。這種一體化設(shè)計使其區(qū)別于側(cè)重仿真渲染的同類模型,可直接應(yīng)用于物理機(jī)器人執(zhí)行。
針對具身智能領(lǐng)域長期存在的真機(jī)數(shù)據(jù)稀缺問題,Motus創(chuàng)新性地統(tǒng)一了跨本體機(jī)器人數(shù)據(jù)、仿真數(shù)據(jù)、人類操作視頻等多元數(shù)據(jù)源的動作空間。通過大規(guī)模預(yù)訓(xùn)練,模型學(xué)習(xí)到通用運(yùn)動先驗知識,在跨任務(wù)和跨平臺場景中展現(xiàn)出強(qiáng)大的泛化能力。實(shí)驗數(shù)據(jù)顯示,在50個任務(wù)的數(shù)據(jù)規(guī)模擴(kuò)展測試中,Motus平均成功率較Pi0.5提升35.1個百分點(diǎn),數(shù)據(jù)效率達(dá)到對比模型的13.55倍。
在任務(wù)復(fù)雜度測試中,Motus的優(yōu)勢更為突出。隨著任務(wù)數(shù)量增加,其成功率持續(xù)上升,而對比模型出現(xiàn)明顯下降,最終成功率差距達(dá)37個百分點(diǎn)。在RoboTwin 2.0仿真環(huán)境的50個任務(wù)評測中,模型取得約88%的平均成功率,部分高難度操作任務(wù)的成功率顯著優(yōu)于現(xiàn)有基線模型。真實(shí)機(jī)器人平臺部署測試進(jìn)一步驗證了其跨本體遷移能力。
該成果的開源包含完整代碼、研究論文和模型權(quán)重,已在GitHub、Hugging Face等平臺公開。生數(shù)科技表示,Motus的發(fā)布旨在為具身智能領(lǐng)域提供統(tǒng)一的基礎(chǔ)模型方案,推動行業(yè)從模塊化系統(tǒng)向統(tǒng)一智能體架構(gòu)演進(jìn)。值得注意的是,這項研究早于行業(yè)同類成果約兩個月完成論文發(fā)布與開源,其技術(shù)路線選擇與實(shí)施效率均體現(xiàn)出領(lǐng)先性。
此前,合作團(tuán)隊已于2025年7月提出Vidar具身視頻模型,圍繞"視頻模型作為統(tǒng)一表征底座"的技術(shù)方向展開探索。Motus的研發(fā)延續(xù)了這一技術(shù)脈絡(luò),通過整合視頻生成、逆動力學(xué)建模等能力,形成了更完整的具身智能解決方案。這種技術(shù)演進(jìn)路徑為解決機(jī)器人學(xué)習(xí)中的數(shù)據(jù)瓶頸問題提供了新思路。












