在機器人技術領域,精細操作能力一直是制約其廣泛應用的關鍵瓶頸。傳統方法需要耗費大量計算資源對機器人主模型進行全面訓練,不僅耗時漫長,且難以應對工廠環境中對精準度、靈活性和速度的嚴苛要求。如今,具身智能領域傳來突破性進展:Physical Intelligence團隊開發的RL token技術,使機器人僅需十幾分鐘至數小時的真實世界操作經驗,即可掌握插網線、擰微型螺絲等高精度任務。
該技術的核心創新在于突破傳統訓練范式。研究團隊沒有選擇對機器人主模型進行整體微調,而是為其添加了一個專門處理精細動作的"外掛模塊"——RL token。這一設計使機器人進化速度提升三倍,在特定任務中的操作速度甚至超越人類遠程操控水平。以擰螺絲任務為例,機器人需在10厘米長的螺絲刀上實現亞毫米級定位精度,傳統方法因手腕微小偏差導致刀尖誤差放大的難題被成功攻克。
技術實現路徑包含兩大關鍵突破:首先是VLA模型改造,通過編碼器-解碼器結構生成包含關鍵信息的RL token,將復雜觀察數據壓縮為極簡摘要;其次是輕量化強化學習系統,由Actor網絡輸出動作、Critic網絡評估效果,采用節省數據的off-policy訓練方法。這兩個神經網絡可直接部署在機器人本體,實現每秒數百次的實時更新,確保每次試錯后立即優化行為策略。
研究團隊設計了四項極具挑戰性的測試任務:用電動螺絲刀安裝M3微型螺絲、系緊扎帶、插入網線及電源線。這些任務的成功關鍵在于最后數毫米的接觸精度,傳統基礎模型雖能完成前期動作,但在關鍵階段常因角度偏差或時機失誤導致失敗。RL token技術通過針對性強化學習,僅用15分鐘真實數據即可優化這些"硬骨頭"環節。在插網線任務中,機器人經過2小時訓練(含15分鐘操作數據)后,不僅成功率顯著提升,半數操作速度更超越人類示范。
該技術的突破性在于建立了一套通用訓練框架:通過預測動作塊保持與VLA模型的動作一致性,采用"修改而非推翻"的策略優化現有動作,引入參考動作dropout機制防止模型惰性,并支持人類干預反饋。這些設計使在線強化學習成為可復用的解決方案,無需針對不同任務重新設計,即可直接應用于各類精密操作場景。









