螞蟻集團(tuán)機(jī)器人團(tuán)隊在機(jī)器人學(xué)習(xí)領(lǐng)域取得重大進(jìn)展,其研發(fā)的LingBot-VLA系統(tǒng)為行業(yè)帶來突破性成果。這項研究通過構(gòu)建大規(guī)模真實(shí)操作數(shù)據(jù)集和優(yōu)化訓(xùn)練框架,使機(jī)器人能夠像人類一樣通過觀察和指令完成復(fù)雜雙手操作任務(wù),相關(guān)論文已發(fā)表于學(xué)術(shù)平臺供全球研究者查閱。
傳統(tǒng)機(jī)器人受限于預(yù)設(shè)程序,難以適應(yīng)動態(tài)環(huán)境。研究團(tuán)隊開發(fā)的LingBot-VLA系統(tǒng)通過多模態(tài)融合架構(gòu),將視覺理解、語言解析和動作規(guī)劃整合為統(tǒng)一系統(tǒng)。其核心的Mixture-of-Transformers架構(gòu)包含兩個協(xié)同工作的模塊:一個負(fù)責(zé)解析環(huán)境信息與指令語義,另一個專注生成連續(xù)流暢的動作序列,二者通過注意力機(jī)制實(shí)現(xiàn)信息互通,使機(jī)器人具備空間感知與精準(zhǔn)操作能力。
研究團(tuán)隊歷時兩年構(gòu)建了全球最大規(guī)模的機(jī)器人操作數(shù)據(jù)集,涵蓋9個不同平臺約20000小時的真實(shí)操作記錄。這些數(shù)據(jù)通過遙操作技術(shù)采集,由真人遠(yuǎn)程控制機(jī)器人完成多樣化任務(wù),確保數(shù)據(jù)真實(shí)性。自動標(biāo)注系統(tǒng)結(jié)合人工校驗,為每個動作序列匹配詳細(xì)的任務(wù)描述與分解步驟。實(shí)驗表明,隨著訓(xùn)練數(shù)據(jù)量從3000小時增至20000小時,系統(tǒng)性能持續(xù)提升且未現(xiàn)飽和跡象,證明數(shù)據(jù)規(guī)模對機(jī)器人學(xué)習(xí)的重要性。
在訓(xùn)練效率方面,研究團(tuán)隊通過分布式計算優(yōu)化實(shí)現(xiàn)重大突破。改進(jìn)的Fully Sharded Data Parallel技術(shù)將模型參數(shù)分片存儲于不同GPU,減少通信開銷的同時提升計算效率。FlexAttention機(jī)制與算子融合策略使系統(tǒng)在8塊GPU配置下達(dá)到每秒261個樣本的處理速度,較現(xiàn)有開源框架提升1.5至2.8倍。這種效率提升顯著降低了模型訓(xùn)練成本,為技術(shù)落地應(yīng)用創(chuàng)造條件。
大規(guī)模測試驗證了系統(tǒng)的泛化能力。研究團(tuán)隊在三個不同硬件平臺(AgileX、Agibot G1、Galaxea R1Pro)上部署系統(tǒng),完成100個涵蓋物體抓取、組裝等場景的任務(wù)測試,累計試驗次數(shù)超過22500次。結(jié)果顯示,LingBot-VLA平均成功率達(dá)17.30%,進(jìn)度評分35.41%,均顯著優(yōu)于對照組。值得注意的是,約50%的測試動作未出現(xiàn)在訓(xùn)練數(shù)據(jù)中,證明系統(tǒng)具備知識遷移與新場景適應(yīng)能力。
深度信息學(xué)習(xí)機(jī)制是提升空間操作精度的關(guān)鍵創(chuàng)新。系統(tǒng)通過可學(xué)習(xí)查詢機(jī)制將多視角圖像與深度感知模型生成的深度標(biāo)記對齊,使機(jī)器人具備三維空間理解能力。實(shí)驗數(shù)據(jù)顯示,集成深度信息的版本在物體放置任務(wù)中成功率提升3至4個百分點(diǎn),在需要雙手協(xié)調(diào)的操作中表現(xiàn)尤為突出。
數(shù)據(jù)效率研究揭示了系統(tǒng)在微調(diào)階段的優(yōu)異表現(xiàn)。使用80個演示樣本時,LingBot-VLA性能即超越使用130個樣本的對照模型,且隨著數(shù)據(jù)量增加,性能提升幅度持續(xù)擴(kuò)大。這種特性使系統(tǒng)能夠快速適應(yīng)新任務(wù),降低實(shí)際應(yīng)用中的數(shù)據(jù)采集成本。
仿真環(huán)境測試進(jìn)一步驗證系統(tǒng)魯棒性。在RoboTwin 2.0平臺進(jìn)行的50項任務(wù)測試中,系統(tǒng)在清潔環(huán)境與隨機(jī)化環(huán)境下的成功率分別達(dá)88.56%和86.68%,較對照組提升顯著。隨機(jī)化測試通過改變光照、障礙物位置等變量模擬真實(shí)場景,證明系統(tǒng)具備應(yīng)對復(fù)雜環(huán)境的能力。
為推動技術(shù)發(fā)展,研究團(tuán)隊將代碼、預(yù)訓(xùn)練模型和基準(zhǔn)數(shù)據(jù)集完全開源。開源的GM-100數(shù)據(jù)集包含100個標(biāo)準(zhǔn)化任務(wù)及評估標(biāo)準(zhǔn),為行業(yè)提供統(tǒng)一評測基準(zhǔn)。訓(xùn)練框架的優(yōu)化設(shè)計使中小型研究團(tuán)隊也能利用有限資源開展大模型訓(xùn)練,加速技術(shù)迭代進(jìn)程。
這項成果標(biāo)志著機(jī)器人學(xué)習(xí)向?qū)嵱没~出重要一步。通過整合多模態(tài)感知、大規(guī)模數(shù)據(jù)訓(xùn)練與高效計算框架,系統(tǒng)展現(xiàn)出在工業(yè)制造、醫(yī)療護(hù)理等領(lǐng)域的潛在應(yīng)用價值。研究團(tuán)隊正探索擴(kuò)展系統(tǒng)通用性,計劃集成單臂與移動機(jī)器人數(shù)據(jù),開發(fā)能夠在開放環(huán)境中執(zhí)行多樣化任務(wù)的智能系統(tǒng)。











