在近日舉辦的GTC具身智能論壇上,特斯拉、Physical Intelligence(PI)、Agility Robotics、Skild AI及Hexagon等企業的技術領袖齊聚,圍繞自動駕駛數據遷移、仿真與現實差距跨越等核心議題展開深度探討。與會者提出,盡管人形機器人與自動駕駛在數據需求上存在共性,但技術路徑的差異與場景復雜度仍構成關鍵挑戰。
特斯拉AI軟件副總裁Ashok Elluswamy指出,自動駕駛數據遷移至人形機器人需精準篩選。他以特斯拉車隊為例,強調并非所有數據價值均等——專業司機的駕駛數據比賽車手數據更具實用性。這一邏輯同樣適用于機器人:特斯拉工廠中數十萬員工執行的物理任務,為人形機器人Optimus提供了關鍵學習樣本。通過攝像頭采集的互聯網視頻雖數據量龐大,但如何篩選有效信息、評估其對任務目標的貢獻,成為技術落地的核心問題。
Agility Robotics CTO Pras Velagapudi提出“數據金字塔”模型,將數據按采集難度與價值分層:頂層為遙操作機器人數據,底層為通用視頻。他強調,頂層數據雖精準但稀缺,需結合下層數據預訓練模型。例如,在與客戶合作時,團隊通過分層利用數據,既用頂層數據完成核心任務,又借助底層數據提升模型泛化能力。然而,合規與監管限制(如部分區域禁止部署監控系統)導致運營數據采集面臨挑戰,部分場景僅能獲取部分觀測數據。
Physical Intelligence聯合創始人Chelsea Finn則從跨形態數據利用角度提出新思路。她發現,當模型訓練數據覆蓋多種機器人形態時,反而能更高效遷移人類視頻中的信息。例如,網絡視頻中的人類動作數據,結合輪式、四足等機器人數據訓練的模型,在泛化能力上優于僅使用人形機器人數據的模型。這一發現挑戰了“形態越接近人類、遷移效果越好”的直覺,為數據利用提供了新方向。
在機器人架構設計上,分層模型成為共識,但具體實現路徑各異。Agility Robotics的Digit機器人采用任務層、技能層、控制層分層架構,控制層由RL驅動,通過域隨機化技術應對環境變化(如不同摩擦系數的地面)。Physical Intelligence則將分層架構與單一模型結合,上層負責抽象規劃(如語言指令理解),下層執行具體動作,實現15分鐘多步驟任務(如泡咖啡)。特斯拉的方案更強調端到端統一性:所有層級在同一模型內運行,共享信息以降低決策延遲,適應人形機器人對實時性的高要求。
Hexagon Robotics則探索多模型編排,通過“機器人提示工程”整合感知、規劃、控制模塊。Arnaud Robert比喻道,這類似于為ChatGPT設計提示詞,但需額外注入環境信息(如產線變化)。團隊還構建了高精度與快速移動的混合模型架構,根據任務需求動態切換,解決單一模型在精度與速度上的矛盾。










