英偉達近日攜手加州大學伯克利分校、斯坦福大學及德克薩斯大學奧斯汀分校等科研機構,共同推出了一款名為DreamDojo的機器人“世界模型”系統。該系統依托海量人類視頻數據,致力于提升機器人對現實世界的理解與交互能力,進而縮短類人機器人的訓練周期并降低成本。
DreamDojo的核心亮點在于其構建的大規模視頻數據集DreamDojo-HV。這一數據集匯聚了約4.4萬小時的人類第一視角視頻,成為當前機器人世界模型預訓練領域規模最大的數據集。相較于此前同類數據集,DreamDojo-HV在時長、技能種類及場景數量上分別實現了15倍、96倍和2000倍的顯著提升。
在訓練機制上,DreamDojo采用了創新的雙階段流程。首階段,模型通過“潛在動作”對大規模人類視頻進行預訓練,從而掌握通用的物理與交互知識;次階段,針對具體機器人硬件,模型利用連續機器人動作進行后訓練,以適應不同機器人的形態與功能。這種訓練方式使機器人能夠在無需實際操作的情況下,通過觀察人類行為來學習基礎物理規律。
研究團隊指出,DreamDojo的引入有效緩解了機器人訓練中的一大難題。傳統機器人在非結構化環境中進行物體操作時,往往需要大量機器人示范數據,這不僅采集成本高昂,而且周期漫長。而DreamDojo通過利用現成的人類視頻數據,使機器人在實際部署前便能完成大量學習任務。
在性能表現上,DreamDojo同樣表現出色。研究人員通過模型蒸餾技術,實現了超過1分鐘、每秒10幀的實時交互能力,為實時遙操作與即時規劃等應用場景提供了有力支持。目前,該系統已在GR-1、G1、AgiBot與YAM等多款類人機器人平臺上進行了驗證,成功覆蓋了多種環境與物體交互場景。
值得一提的是,英偉達首席執行官黃仁勛曾多次在公開場合強調,AI機器人將成為“代際級別”的發展機遇,未來十年將是機器人技術加速演進的關鍵時期。隨著大型科技公司不斷加大AI基礎設施投入,機器人領域的資本與產業合作也日益緊密。











