當前,高質量數據匱乏已成為具身智能發展面臨的核心難題,也是人形機器人“大腦”進化的關鍵阻礙。這一瓶頸問題,正引發行業內的廣泛關注與深度思考。
在沖刺A股“人形機器人第一股”的征程中,宇樹科技在其披露的招股書里明確提及了這一問題。招股書顯示,宇樹科技計劃搭建大規模真實數據集、開發高性價比遙操系統、建立自動化標注機制,以形成“數據飛輪”。這一系列規劃,體現了人形機器人頭部企業對“大腦”瓶頸的前瞻性布局,釋放出行業發展的重要信號:當行業的關注點從“能跑能跳”轉向“能干活”時,數據采集能力的重要性超越了硬件性能,成為新的競爭分水嶺。誰具備規模化、高質量的真機數據生產能力,誰就能在“大腦”進化競賽中搶占先機。
為解決高質量數據規模化生產難題,以樂聚機器人為代表的企業提出了全新的產業級基礎設施構想——人形機器人訓練場。訓練場并非簡單的場地堆砌,而是一個系統性工程。它集成了標準化數據采集流程、多模態傳感器系統、統一數據格式與接口,以及高效數據標注與管理平臺。
若將真機數據比作推動產業發展的“石油”,那么訓練場就是規模化、系統化生產這一核心燃料的“數據油田”與“精煉廠”。訓練場的核心價值在于從根源上解決行業高質量數據供給不足的問題。目前,全球開源的真機數據時長,對于訓練大模型所需的億級參數而言遠遠不夠。而通過規模化、流程化的訓練場布局,數據產量有望大幅提升,從根本上解決“沒數據可訓”的困境。
訓練場還具有多方面的重要作用。它降低了全行業的研發門檻和重復投入,如同“共享工廠”一般,讓各方按需使用數據和算力,使有限資源能夠聚焦于算法模型的創新。同時,訓練場加速了具身模型迭代與場景落地的閉環。數據采集、模型訓練、算法部署、效果驗證可在同一空間內快速循環,實現“邊采邊訓、即訓即用”的敏捷迭代。訓練場能夠全面加速人形機器人的產業規模化進程。其訓練出的基礎模型具備更強的泛化能力,降低了對場景定制化開發的依賴,削減了單臺機器人的投入成本。而且,訓練場的興起會伴隨數據采集、標注、質檢等全流程標準的制定,為行業規范的建立提供實踐基礎。
在國家戰略的推動下,訓練場正從概念逐步走向現實,從零星試點向網絡化布局拓展。樂聚機器人憑借先發優勢,成為國內具身真機數據領域的標桿企業,為行業提供了可借鑒的范本。目前,全國已規劃建設14個人形機器人訓練場,其中9個由樂聚參與建設,包括北京全國最大規模的訓練場,形成了“全國核心+區域覆蓋”的基建格局。
這些訓練場針對不同場景進行專業化分工,又通過統一的數據平臺實現互聯互通。依托這一網絡,樂聚實現了年產2500萬條真機數據的規模化產能,成為行業數據供給的重要力量。更值得關注的是樂聚在數據開放方面的舉措。其LET數據集開源了超過60000分鐘的高質量真機數據,全平臺總下載量突破100萬次,成為行業公認的優質數據資源。在開放原子開源基金會的指導下,樂聚還牽頭建設了國家級具身智能開源數據集社區。這表明,真機數據的價值在于流通,當更多開發者、科研團隊和企業能夠攜手研究,整個行業的技術迭代速度將得到重新定義。
在標準建設層面,樂聚積極參與規則制定。公司參與了國家級標準訓練場試點,申請并參與7項行業標準。這一布局能夠將樂聚的一線實踐經驗融入標準制定過程,有望轉化為可推廣的行業共識。從訓練場網絡布局,到數據集開源,再到標準建設,樂聚構建了一個覆蓋“基建—數據—生態—標準”的全鏈路真機數據體系,旨在向全行業開放基礎設施能力,推動人形機器人產業的協同發展。
隨著具身智能數據規模化元年的開啟,樂聚的實踐讓行業認識到,真機數據訓練場不僅是數據采集的基地,更是連接技術、企業與場景的樞紐,是推動人形機器人規模化商業化的關鍵基礎設施。人形機器人產業的發展已不再局限于單一技術的突破,而是需要全產業鏈、全基礎設施的協同共進。隨著真機數據生態的持續完善,人形機器人有望突破“大腦”瓶頸,從實驗室走向千行百業。











