在機器人技術領域,一場具有里程碑意義的變革正在悄然發生。智元機器人公司近日取得重大突破,推出世界模型迭代版本Genie Envisioner World Simulator 2.0(GE-Sim 2.0),為機器人行業帶來了全新的發展思路,有望推動機器人從被動執行走向自主進化。
長期以來,機器人技術發展面臨諸多挑戰。真實世界中,機器人策略訓練高度依賴實際環境,不僅評估成本高昂,效率也極為有限,高質量數據的獲取與擴展更是成為制約機器人發展的關鍵瓶頸。傳統世界模型大多僅聚焦于“狀態”建模,而忽略了機器人動作對環境演化的重要影響。機器人面對的世界是連續變化的,動作不僅是輸出,更是影響環境演化的核心變量。機器人做了什么動作、動作如何改變世界、世界又如何反饋給策略,這些問題在傳統模型中未能得到有效解決。
智元機器人敏銳地察覺到這一痛點,在技術路徑上大膽創新,沿著兩條主線推進世界模型的發展。一條是世界動作模型(World Action Model),專注于對動作表征進行深度建模;另一條是世界模擬器(World Simulator),致力于打造一個可交互、可推演、可訓練的完整環境。通過將“狀態 - 動作 - 狀態演化”作為統一建模對象,智元讓世界模型成為策略學習與動作生成的基礎表示層,為機器人理解世界提供了全新的視角。
在探索過程中,智元取得了一系列階段性成果。先是構建了EnerVerse,將具身場景拓展為可計算的4D世界模型;接著推出Genie Envisioner Act(GE - Act),實現從世界表征能力到動作軌跡生成的跨越;又通過Act2Goal,讓機器人具備目標驅動的長程控制能力。這些探索使世界模型首次具備承載動作策略的能力,為后續發展奠定了堅實基礎。
然而,智元并未滿足于此。為了讓機器人能在更真實、穩定、高效的環境中訓練,降低真實世界試錯成本,智元在強化世界動作模型建模能力的同時,同步推動世界模型向可交互模擬器能力發展。通過EnerVerse - AC引入動作條件化世界建模,使模型能夠基于動作進行未來推演;借助Genie Envisioner Sim(GE - Sim 1.0)構建可用于策略閉環評估的神經模擬器;并從場景一致性、動作正確性與語義對齊等多個維度,對世界模型的模擬能力進行系統評估。
在此基礎上,智元還建立了一套全新的數據與訓練范式。將真實數據與生成數據相結合,使策略訓練既保證真實性,又增強泛化能力。同時,提出Real2Edit2Real流程,讓真實數據從被動采集轉變為主動擴展與編輯的基礎,顯著提升數據規模與多樣性。
此次發布的GE - Sim 2.0,是智元技術創新的集大成者。它不再僅僅是一個生成模型,而是一個真正意義上的“可操作世界”。該模型能夠嚴格響應機器人動作信號,生成高保真的環境變化,且嚴格遵循物理與語義邏輯。它支持分鐘級長時序穩定推演,可將零散視頻片段轉化為完整任務過程的連續生成。多視角視覺、跨視角3D一致性與機器人本體狀態被統一建模,讓機器人面對的不再是簡單的“畫面”,而是一個完整、可交互的具身世界。內置激勵模型使模型具備自評估能力,可基于文本對生成狀態自動評估與優化,無需人工激勵訓練即可完成強化學習,訓練閉環真正內嵌進模型世界本身。隨著推理效率提升,GE - Sim 2.0已接近實時運行,成為可實時交互的系統環境。
這一技術升級為具身智能帶來范式革新。世界動作模型與視覺 - 語言 - 動作模型深度融合,讓機器人從被動響應環境的“反應式控制”,轉變為能預判未來、規劃全局的“生成式決策”。世界模擬器搭建起無限延伸的虛擬訓練場,機器人可在此大規模試錯、反復優化,不再受真實數據稀缺性束縛,其能力上限由模擬的真實度與高效性決定。當模型成為可交互、可訓練、可進化的完整世界,現實不再是機器人唯一的訓練場,機器人有望徹底跳出“復現經驗”的局限,真正走向自主探索、持續進化的新階段。











