螞蟻靈波科技在具身智能領(lǐng)域再推創(chuàng)新成果——具身世界模型LingBot-VA正式開源。該模型首次構(gòu)建自回歸視頻-動(dòng)作世界建模框架,通過將大規(guī)模視頻生成能力與機(jī)器人控制技術(shù)深度整合,實(shí)現(xiàn)了"預(yù)測(cè)世界狀態(tài)"與"生成動(dòng)作序列"的同步輸出。這一突破使機(jī)器人具備"推演即行動(dòng)"的類人決策能力,在復(fù)雜任務(wù)執(zhí)行中展現(xiàn)出顯著優(yōu)勢(shì)。
真機(jī)實(shí)測(cè)數(shù)據(jù)顯示,LingBot-VA在三大類六項(xiàng)高難度任務(wù)中表現(xiàn)卓越。面對(duì)制作早餐、拆解快遞等長(zhǎng)時(shí)序任務(wù),插入試管、拾取螺絲等高精度操作,以及疊衣物、整理褲裝等柔性物體操控場(chǎng)景,模型僅需30-50條演示數(shù)據(jù)即可完成適配。與行業(yè)標(biāo)桿Pi0.5相比,其任務(wù)成功率平均提升20%,在復(fù)雜物理交互場(chǎng)景中展現(xiàn)出更強(qiáng)的環(huán)境適應(yīng)能力。
在仿真環(huán)境測(cè)試中,該模型持續(xù)刷新行業(yè)紀(jì)錄。雙臂協(xié)同操作基準(zhǔn)RoboTwin 2.0測(cè)試顯示,LingBot-VA將任務(wù)成功率首次推高至90%以上;長(zhǎng)時(shí)序終身學(xué)習(xí)基準(zhǔn)LIBERO測(cè)試中,更取得98.5%的平均成功率。這些數(shù)據(jù)驗(yàn)證了模型在復(fù)雜動(dòng)態(tài)環(huán)境中的穩(wěn)定性和可靠性。
技術(shù)架構(gòu)方面,LingBot-VA采用創(chuàng)新的Mixture-of-Transformers(MoT)設(shè)計(jì),通過跨模態(tài)融合機(jī)制實(shí)現(xiàn)視頻理解與動(dòng)作控制的有機(jī)統(tǒng)一。其閉環(huán)推演系統(tǒng)可實(shí)時(shí)整合環(huán)境反饋,確保生成內(nèi)容始終符合物理規(guī)律。針對(duì)機(jī)器人端側(cè)部署的計(jì)算瓶頸,研發(fā)團(tuán)隊(duì)設(shè)計(jì)了異步推理管線,將動(dòng)作預(yù)測(cè)與執(zhí)行指令并行處理,配合記憶緩存機(jī)制和噪聲增強(qiáng)策略,在保證控制精度的同時(shí)將響應(yīng)延遲降低至行業(yè)領(lǐng)先水平。
此次開源是螞蟻靈波技術(shù)生態(tài)建設(shè)的重要里程碑。繼此前發(fā)布模擬環(huán)境LingBot-World、智能基座LingBot-VLA和空間感知模塊LingBot-Depth后,LingBot-VA的加入完整構(gòu)建了"世界模型賦能具身操作"的技術(shù)路徑。所有核心代碼、模型權(quán)重及訓(xùn)練框架已通過InclusionAI社區(qū)向全球開發(fā)者開放,為真實(shí)產(chǎn)業(yè)場(chǎng)景中的AGI應(yīng)用提供基礎(chǔ)設(shè)施支持。











