鳳凰網(wǎng)科技訊(作者/董雨晴) 1月29日,繼連續(xù)發(fā)布空間感知與VLA基座模型后,螞蟻靈波科技開源發(fā)布世界模型LingBot-World。據(jù)披露,該模型在視頻質(zhì)量、動態(tài)程度、長時一致性、交互能力等關(guān)鍵指標上追平Google Genie 3,目標是為具身智能、自動駕駛及游戲開發(fā)提供高保真、高動態(tài)、可實時操控的“數(shù)字演練場”。
針對視頻生成中最常見的“長時漂移”問題(生成時間一長就可能出現(xiàn)物體變形、細節(jié)塌陷、主體消失或場景結(jié)構(gòu)崩壞等現(xiàn)象),LingBot-World通過多階段訓練以及并行化加速,實現(xiàn)了近10分鐘的連續(xù)穩(wěn)定無損生成,為長序列、多步驟的復雜任務訓練提供支撐。
交互性能上,LingBot-World可實現(xiàn)約16 FPS的生成吞吐,并將端到端交互延遲控制在1秒以內(nèi)。用戶可通過鍵盤或鼠標實時控制角色與相機視角,畫面隨指令即時反饋。用戶可通過文本觸發(fā)環(huán)境變化與世界事件,例如調(diào)整天氣、改變畫面風格或生成特定事件,并在保持場景幾何關(guān)系相對一致的前提下完成變化。
模型具備Zero-shot泛化能力,輸入一張真實照片(如城市街景)或游戲截圖,可生成可交互的視頻流,無需針對單一場景進行額外訓練或數(shù)據(jù)采集,從而降低在不同場景中的部署與使用成本。
為解決世界模型訓練中高質(zhì)量交互數(shù)據(jù)匱乏的問題,LingBot-World采用了混合采集策略:一方面通過清洗大規(guī)模的網(wǎng)絡(luò)視頻以覆蓋多樣化的場景,另一方面結(jié)合游戲采集與虛幻引擎(UE)合成管線,從渲染層直接提取無UI干擾的純凈畫面,并同步記錄操作指令與相機位姿,為模型學習“動作如何改變環(huán)境”提供精確對齊的訓練信號。
目前,LingBot-World模型權(quán)重及推理代碼已面向社區(qū)開放。











