螞蟻靈波科技近日正式開源發(fā)布世界模型LingBot-World,該模型在視頻生成質(zhì)量、動(dòng)態(tài)表現(xiàn)、長(zhǎng)時(shí)穩(wěn)定性及交互能力等核心指標(biāo)上達(dá)到國(guó)際領(lǐng)先水平,可與Google Genie 3相媲美。作為專為具身智能、自動(dòng)駕駛及游戲開發(fā)設(shè)計(jì)的底層框架,其核心目標(biāo)是為復(fù)雜場(chǎng)景訓(xùn)練提供高保真、可實(shí)時(shí)操控的"數(shù)字演練場(chǎng)",支持從物理仿真到策略驗(yàn)證的全流程應(yīng)用。
針對(duì)長(zhǎng)視頻生成中普遍存在的"長(zhǎng)時(shí)漂移"難題,研發(fā)團(tuán)隊(duì)通過創(chuàng)新的多階段訓(xùn)練架構(gòu)與并行化加速技術(shù),成功實(shí)現(xiàn)近10分鐘的連續(xù)穩(wěn)定輸出。這一突破有效解決了物體變形、場(chǎng)景崩壞等傳統(tǒng)問題,為機(jī)器人路徑規(guī)劃、自動(dòng)駕駛決策等需要長(zhǎng)序列訓(xùn)練的任務(wù)提供了可靠支撐。實(shí)驗(yàn)數(shù)據(jù)顯示,模型在持續(xù)生成過程中可保持場(chǎng)景幾何關(guān)系與物體運(yùn)動(dòng)邏輯的高度一致性。
在交互性能方面,LingBot-World展現(xiàn)出顯著優(yōu)勢(shì)。其支持每秒16幀的實(shí)時(shí)生成速率,端到端交互延遲控制在1秒以內(nèi),用戶可通過鍵盤鼠標(biāo)即時(shí)操控角色移動(dòng)與相機(jī)視角,畫面響應(yīng)與指令輸入同步率達(dá)98%以上。更突破性的是,模型允許通過自然語言指令觸發(fā)環(huán)境變化,如調(diào)整天氣系統(tǒng)、切換畫面風(fēng)格或生成特定事件,同時(shí)自動(dòng)維持場(chǎng)景的空間連貫性。
該模型另一重大創(chuàng)新在于其Zero-shot泛化能力。研發(fā)團(tuán)隊(duì)構(gòu)建了跨模態(tài)映射機(jī)制,使模型能夠直接解析真實(shí)照片或游戲截圖,無需針對(duì)特定場(chǎng)景進(jìn)行數(shù)據(jù)采集或微調(diào)訓(xùn)練即可生成可交互視頻流。這項(xiàng)技術(shù)大幅降低了模型在不同領(lǐng)域的部署成本,經(jīng)測(cè)試,在城市街景、工業(yè)廠房等20類場(chǎng)景中均實(shí)現(xiàn)開箱即用。
為破解高質(zhì)量交互數(shù)據(jù)短缺的行業(yè)困境,研究團(tuán)隊(duì)設(shè)計(jì)了混合數(shù)據(jù)采集策略。一方面從海量網(wǎng)絡(luò)視頻中篩選多樣化場(chǎng)景素材,另一方面結(jié)合游戲引擎與虛幻合成管線,直接從渲染層提取無UI干擾的純凈畫面數(shù)據(jù)。通過同步記錄操作指令與相機(jī)位姿信息,構(gòu)建出包含百萬級(jí)精準(zhǔn)對(duì)齊樣本的訓(xùn)練集,為模型理解"動(dòng)作-環(huán)境"因果關(guān)系提供了關(guān)鍵支撐。
目前,LingBot-World已完整開源模型權(quán)重與推理代碼,開發(fā)社區(qū)可自由獲取用于非商業(yè)研究。這項(xiàng)技術(shù)突破不僅為AI訓(xùn)練提供了新型基礎(chǔ)設(shè)施,其低延遲、高保真的特性更在機(jī)器人仿真、數(shù)字孿生等領(lǐng)域展現(xiàn)出廣闊應(yīng)用前景,或?qū)⑼苿?dòng)相關(guān)產(chǎn)業(yè)進(jìn)入實(shí)時(shí)交互新時(shí)代。











