具身智能領域正迎來一場關鍵變革,行業焦點逐漸從依賴真機遙操作數據轉向挖掘人類操作數據的深層價值。傳統模式下,真機數據采集成本高昂、效率低下,且難以真實反映復雜場景中的操作節拍與穩定性要求。當實驗室演示與工業現場實際需求產生鴻溝時,如何將人類積累的操作經驗轉化為機器人可規模化學習的能力,成為決定下一階段競爭格局的核心命題。
某智能科技公司近期發布的創新成果,為這一難題提供了系統性解決方案。其推出的策略模型Psi-R2與世界模型Psi-W0,配合近10萬小時的人類操作數據集,構建起"數據-模型-強化學習"三位一體的技術框架。其中首批開源的1000小時人類手部操作數據,憑借多場景、多任務、多物體的覆蓋特性,成為當前全球規模最大的同類數據集之一。這套體系包含5417小時真機數據與95472小時人類數據,通過分層數據結構實現精度與泛化能力的平衡——高精度數據確保操作上限,大規模數據提供場景適應性。
技術實現層面,研發團隊突破傳統數據對齊的思維定式。面對人手與機械手在運動學、動力學上的本質差異,團隊放棄復雜的數據修飾方法,轉而采用"原始數據輸入輸出"的簡潔策略。通過運動學映射實現關節維度對齊,保留圖像原始信息直接輸入模型,這種設計使Psi-R2具備同時預測未來視頻幀與機器人動作序列的能力。基于預訓練視頻生成模型架構,該策略模型僅需不足百條真機軌跡微調,即可完成手機裝配、工業包裝等復雜任務。
世界模型Psi-W0的引入,則構建起虛擬試錯空間。該模型在預測未來視頻的基礎上,特別強化對失敗場景的建模能力,其訓練數據中包含約30%的失敗案例。通過接收圖像、語言及動作軌跡信息,Psi-W0能夠評估策略模型的輸出軌跡,在機器人動力學約束下進行精細化修正。這種"人類策略輸入-世界模型評估-強化學習優化"的閉環機制,形成持續進化的數據飛輪:優質軌跡回流訓練集,失敗案例提升模型魯棒性。
工程優化為技術落地掃清障礙。通過模型壓縮、編譯優化與量化技術,系統推理時延從2.2秒壓縮至100毫秒以內,滿足連續精細操作的實時性要求。成本維度上,人類數據采集成本較傳統真機方案降低超90%,且采集節拍更貼近真實作業場景。在艾倫人工智能研究所發起的MolmoSpaces權威評測中,Psi-R2在不使用特定機器人數據的情況下,以46.4%的成功率登頂Combined榜單,在任務覆蓋率與綜合性能上超越NVIDIA、PI等國際頂尖團隊。
行業觀察指出,這套解決方案的價值不僅在于技術突破,更在于重新定義了具身智能的發展路徑。當數據分布的重要性排序被確立為"任務多樣性>物體多樣性>>場景多樣性",當觸覺信號被視為跨具身交互的通用語言,整個領域的研究范式正在發生根本性轉變。隨著首批開源數據的釋放,全球研究者將獲得驗證新范式的公共基準,這或許標志著具身智能從實驗室演示向工業級部署的關鍵轉折。










