臨近春節,科技領域迎來一波技術成果集中發布潮。螞蟻旗下靈波科技近日連續推出多項具身智能領域的新成果,引發行業廣泛關注。從高精度空間感知到具身大模型,再到兩款定位不同的世界模型,靈波科技的技術布局展現出獨特的戰略思路。
1月27日,靈波科技率先開源高精度空間感知模型LingBot-Depth,為機器人提供更精準的物理世界感知能力。次日,具身大模型LingBot-VLA的發布進一步夯實了技術基礎。當行業認為這已是技術宣發的重點時,靈波科技又接連推出兩款世界模型,形成完整的技術矩陣。
新發布的LingBot-World被定位為開源版Genie3,致力于構建高保真、可控制且邏輯一致的模擬環境。該模型通過整合真實世界視頻、游戲視頻和合成渲染數據,建立分層數據引擎,解決高質量交互數據稀缺的難題。采用混合專家(MoE)架構和實時推理系統,模型在保持高保真紋理生成能力的同時,將延遲控制在1秒以內,計算成本顯著降低。技術報告顯示,LingBot-World在視頻質量、動態程度和長時序一致性等關鍵指標上達到行業領先水平。
另一款世界模型LingBot-VA則聚焦視頻與動作的對應關系,采用自回歸框架實現"視頻-動作"的閉環交互。通過混合Transformer(MoT)架構,模型將高維視頻信號與低維動作信號映射到統一潛空間,實現精確的動作預測與執行。針對機器人控制中的長時漂移問題,該模型在復雜任務中取得超過98%的成功率,在LIBERO和RoboTwin等基準測試中分別以98.5%和92%+的成績領先現有方案。
技術實現層面,LingBot-VA通過多項創新優化系統效率。針對視頻與動作的稀疏性差異,模型采用動態稀疏處理策略;通過獨立的Transformer模塊實現模態對齊,并引入噪聲增強機制提升訓練效果。異步推理流水線的設計使動作預測與電機執行并行處理,確保模型在真實機器人上的實時響應能力。實測數據顯示,該模型僅需30-50條演示數據即可完成新場景適配,顯著降低數據依賴。
這兩款世界模型與前期發布的LingBot-Depth和LingBot-VLA形成技術協同。Depth模型提供基礎空間感知能力,VLA模型實現精準物理操作,World模型構建虛擬訓練場,VA模型則探索交互新范式。四款產品共同構成從感知到決策、從仿真到實操的完整技術鏈條,為具身智能發展提供多維度支持。
開源戰略是靈波科技技術布局的重要特征。LingBot-World和LingBot-VA均采用開源模式,降低具身開發者技術門檻的同時,為二次開發提供基礎框架。這種開放策略與行業需求深度契合,既解決實際開發中的數據獲取和計算成本問題,又通過生態共建推動技術迭代。技術報告披露的多個應用場景顯示,開源模型已具備事件生成、三維建模和智能體訓練等多樣化潛力。
在技術路線選擇上,靈波科技展現出平衡理想與現實的獨特思路。不同于單純追求智能上限或完全仿真物理世界的極端路徑,其技術方案更注重解決行業實際痛點。通過模塊化架構設計和多源數據融合,模型在保持技術先進性的同時,兼顧計算效率和工程可行性。這種務實的技術審美,為具身智能從實驗室走向實際應用提供了可驗證的路徑。










