螞蟻集團旗下靈波科技近日宣布開源一款名為LingBot-World的世界模型,標志著其在具身智能領域的技術布局再進一步。這款模型在視頻生成質量、動態交互能力及長時序一致性方面達到行業領先水平,被業界視為可與谷歌Genie 3媲美的開源解決方案。
針對視頻生成領域長期存在的"長時漂移"難題,LingBot-World通過創新的多階段訓練架構實現突破。該模型支持近10分鐘的連續穩定生成,在壓力測試中即使鏡頭移開60秒后返回,場景中的目標物體仍能保持結構完整。這一特性為機器人訓練、自動駕駛仿真等需要長序列操作的任務提供了可靠的數據支撐。
在交互性能方面,模型展現出顯著優勢。其端到端響應延遲控制在1秒以內,支持約16幀/秒的實時生成吞吐量。用戶可通過鍵盤鼠標即時操控角色移動與相機視角,畫面反饋流暢自然。更值得關注的是,系統允許通過文本指令觸發環境變化,如調整天氣、切換畫面風格或生成特定事件,同時維持場景幾何關系的相對穩定。
該模型的核心突破在于零樣本泛化能力。開發者僅需提供單張城市街景照片或游戲截圖,即可直接生成可交互的視頻流,無需針對特定場景進行額外訓練。這種特性極大降低了數據采集成本,為具身智能的規模化應用開辟了新路徑。
為解決高質量交互數據稀缺問題,研發團隊采用混合采集策略:一方面從海量網絡視頻中篩選多樣化場景,另一方面結合游戲引擎合成技術,直接從渲染層提取無UI干擾的畫面數據。這種雙軌制數據采集方式,配合精確對齊的操作指令記錄,使模型能夠準確理解"動作如何改變環境"的因果關系。
在具身智能落地過程中,真實世界的長程任務訓練數據獲取始終是瓶頸。LingBot-World通過數字世界模擬物理環境,為智能體提供了低成本、高保真的試錯空間。其支持的場景多樣化生成功能,包括光照變化、物體位置調整等,可有效提升算法在真實場景中的適應能力。
目前,該模型的權重參數與推理代碼已全面開放下載。開發者社區可自由獲取這套工具,用于機器人訓練、游戲開發、自動駕駛仿真等多個領域。這項開源舉措預計將加速具身智能技術的普及,推動行業進入新的發展階段。











