國家地方共建人形機器人創新中心與上海緯鈦科技有限公司近日聯合宣布,全球首個大規模跨本體視觸覺多模態數據集“白虎-VTouch”正式發布。該數據集突破了具身智能領域長期存在的三大瓶頸:真實物理交互數據稀缺、高保真觸覺信息不足以及跨機器人本體泛化能力弱,為機器人從“視覺感知”向“觸覺操控”升級提供了關鍵支撐。
數據集規模達6萬分鐘以上,首批6000分鐘開源數據已在OpenLoong社區上線。其內容涵蓋視觸覺傳感器數據、RGB-D深度信息及關節位姿數據,支持輪臂機器人、雙足機器人和手持智能終端等多類本體構型。通過系統采集家居家政、工業制造、餐飲服務等4大場景的380余種任務類型,數據集構建了“矩陣式”任務范式,實現數據規模化生成與能力結構化覆蓋的統一閉環。這種設計使機器人策略模型在精細觸覺感知、閉環力控交互等核心能力上獲得系統性提升,而非依賴零散任務堆砌。
技術實現層面,研發團隊搭建了跨本體規模化數采平臺,具備六大創新特性:多進程架構支持每秒100MB以上實時采集,可同步處理視覺、觸覺、力覺等10余種傳感器數據;雙時間戳設計確保多模態數據時序精準對齊;分布式處理架構顯著降低系統成本,同時通過隊列緩沖與進程監控機制保障高可靠性。平臺配套的Web控制面板支持實時監控與一鍵錄制,極大提升了操作便捷性。
數據標注體系采用跨層次交互理解框架,分為抽象思維層、動作邏輯層和物理狀態層。抽象思維層通過任務意圖推演構建通用化思維鏈;動作邏輯層將復雜操作拆解為100余種原子動作序列;物理狀態層則利用視觸覺數據深化機器人對自身狀態的感知。這種多模態語義聯合建模方式,為下一代具身VTLA(視覺-語言-動作)模型提供了數據標準基礎。
在算法支持方面,團隊開發了統一訓-推算法框架,兼容多種數據格式與控制方式,支持主流策略模型的統一訓練與快速切換。經擴散策略與模仿學習算法驗證,該框架使任務完成率提升顯著,跨模型泛化能力增強。數據集中視觸覺接觸圖像達9072萬對,覆蓋260余種接觸密集型任務,其中68%的任務通過觸覺感知獲得了更完整的接觸狀態描述,為精細操作、力控調整等關鍵環節提供直接增益。
作為全國首個具身智能領域國家級標準化試點“上海虛實融合具身智能訓練場”的核心組成部分,白虎-VTouch數據集將推動機器人從實驗室走向真實復雜場景。研發團隊表示,后續將持續開放數據集使用說明及相關研究成果,聯合生態伙伴構建從數據到決策的完整技術鏈條,加速具身智能生態體系建設。











