1月29日消息,螞蟻集團旗下靈波科技今日宣布全面開源世界模型 LingBot-World。此前,靈波科技已先后開源空間感知模型LingBot-Depth以及具身大模型 LingBot-VLA。
業(yè)內(nèi)人士指出,隨著“靈波”系列連續(xù)發(fā)布三款具身領(lǐng)域大模型,螞蟻的AGI戰(zhàn)略實現(xiàn)了從數(shù)字世界到物理感知的關(guān)鍵延伸。這標(biāo)志著其“基礎(chǔ)模型-通用應(yīng)用-實體交互”的全棧路徑已然清晰。
據(jù)介紹,最新開源的LingBot-World模型在視頻質(zhì)量、動態(tài)程度、長時一致性、交互能力等關(guān)鍵指標(biāo)上媲美 Google Genie 3,旨在為具身智能、自動駕駛及游戲開發(fā)提供高保真、高動態(tài)、可實時操控的“數(shù)字演練場”。
其中,針對視頻生成中最常見的“長時漂移”問題(生成時間一長就可能出現(xiàn)物體變形、細節(jié)塌陷、主體消失或場景結(jié)構(gòu)崩壞等現(xiàn)象),LingBot-World 通過多階段訓(xùn)練以及并行化加速,實現(xiàn)了近 10 分鐘的連續(xù)穩(wěn)定無損生成,為長序列、多步驟的復(fù)雜任務(wù)訓(xùn)練提供支撐。
目前,LingBot-World 模型權(quán)重及推理代碼已面向社區(qū)開放。












