螞蟻開源世界模型,為機器人造“元宇宙訓(xùn)練場”。
智東西1月29日報道,今天,螞蟻靈波科技發(fā)布并開源了世界模型LingBot-World。該模型是一個專為交互式世界模型設(shè)計的開源框架。其核心LingBot-World-Base能夠提供高保真、可控制且邏輯一致的模擬環(huán)境。
LingBot-World由一個可擴展數(shù)據(jù)引擎驅(qū)動,通過從大規(guī)模游戲環(huán)境中學(xué)習(xí)物理規(guī)律與因果關(guān)系,可以實現(xiàn)與生成世界的實時交互。
該模型在視頻質(zhì)量、動態(tài)程度、長時一致性、交互能力等關(guān)鍵指標(biāo)上均逼近谷歌Genie 3。
▲LingBot-World能力表
01.
近10分鐘穩(wěn)定生成
鏡頭移開60s還能保持一致
針對視頻生成中最常見的“長時漂移”問題即生成時間一長就可能出現(xiàn)物體變形、細節(jié)塌陷、主體消失或場景結(jié)構(gòu)崩壞等現(xiàn)象,LingBot-World通過多階段訓(xùn)練以及并行化加速,實現(xiàn)了近10分鐘的連續(xù)穩(wěn)定無損生成,為長序列、多步驟的復(fù)雜任務(wù)訓(xùn)練提供支撐。
▲高動態(tài)環(huán)境下,鏡頭長時間移開后返回,車輛形態(tài)外觀仍保持一致
▲鏡頭長時間移開后返回,房屋仍存在且結(jié)構(gòu)一致
交互性能上,LingBot-World可實現(xiàn)約16 FPS的生成吞吐,并將端到端交互延遲控制在1秒以內(nèi)。用戶可通過鍵盤或鼠標(biāo)實時控制角色與相機視角,畫面隨指令即時反饋。
用戶可以通過文本指令觸發(fā)環(huán)境變化與世界事件,例如調(diào)整天氣、切換畫面風(fēng)格或生成特定事件等,且所有變化均可在保持場景幾何關(guān)系相對穩(wěn)定的前提下完成。
02.
支持長程任務(wù)訓(xùn)練
與場景多樣化生成
為解決世界模型訓(xùn)練中高質(zhì)量交互數(shù)據(jù)匱乏的問題,LingBot-World采用了混合采集策略:
一方面通過清洗大規(guī)模的網(wǎng)絡(luò)視頻以覆蓋多樣化的場景,另一方面結(jié)合游戲采集與虛幻引擎(UE)合成管線,從渲染層直接提取無UI干擾的純凈畫面,并同步記錄操作指令與相機位姿,為模型學(xué)習(xí)“動作如何改變環(huán)境”提供對齊的訓(xùn)練信號。
得益于此,LingBot-World具備了良好的Zero-shot泛化能力。僅需輸入一張真實的城市街景照片或游戲截圖,模型即可生成對應(yīng)的可交互視頻流,無需針對單一場景進行額外訓(xùn)練,降低了在不同場景中的部署與使用成本。
具身智能的規(guī)模化落地還面臨一個核心挑戰(zhàn),那就是復(fù)雜長程任務(wù)的真機訓(xùn)練數(shù)據(jù)極度稀缺。
LingBot-World憑借長時序一致性、實時交互響應(yīng),以及對“動作-環(huán)境變化”因果關(guān)系的理解,能夠在數(shù)字世界中“想象”物理世界,為智能體的場景理解和長程任務(wù)執(zhí)行提供了一個低成本、高保真的試錯空間。
同時,LingBot-World還支持場景多樣化生成,可以改變光照、擺放位置變化等,此功能也有助于提升具身智能算法在真實場景中的泛化能力。
03.
結(jié)語:螞蟻補全物理感知拼圖
螞蟻連續(xù)發(fā)布三款“靈波”系列具身領(lǐng)域大模型,其通用人工智能(AGI)戰(zhàn)略由此完成從數(shù)字世界向物理感知層面的關(guān)鍵延伸,也讓其“基礎(chǔ)模型-通用應(yīng)用-實體交互”的全棧技術(shù)路徑進一步清晰。
從行業(yè)視角看,世界模型正成為連接生成式AI與具身智能的關(guān)鍵橋梁。LingBot-World在長序列生成與零樣本泛化方面的能力,若能在實際應(yīng)用中驗證,或可推動相關(guān)領(lǐng)域從有限場景訓(xùn)練向開放場景適應(yīng)的演進。












