全球人工智能領域正經歷一場關鍵轉折,中國科技企業(yè)螞蟻集團旗下靈波科技近日以連續(xù)開源四大核心模型的動作,在全球范圍內引發(fā)強烈關注。1月27日至30日期間,該團隊依次發(fā)布空間感知模型LingBot-Depth、具身大模型LingBot-VLA、世界模型LingBot-World及具身世界模型LingBot-VA,構建起覆蓋感知、決策、模擬與行動的完整開源技術體系。這一系列突破不僅打破了國際巨頭長期主導的技術格局,更推動世界模型領域從封閉研發(fā)向開放協(xié)作加速演進。
作為首個開源的世界模型,LingBot-World的發(fā)布具有里程碑意義。該模型通過生成高保真虛擬環(huán)境,為機器人訓練、自動駕駛算法開發(fā)及游戲場景設計提供實時可控的數(shù)字孿生平臺。技術測試顯示,其在視頻生成質量、動態(tài)復雜度及長時序一致性等核心指標上已達到谷歌同期發(fā)布的Genie 3模型水平,更突破性地解決了"長時漂移"難題,實現(xiàn)連續(xù)10分鐘穩(wěn)定生成且交互延遲低于1秒。德國財經媒體AdHocNews特別指出,這種開源模式使開發(fā)者能以極低成本接觸工業(yè)級技術,顯著降低物理AI系統(tǒng)的研發(fā)門檻。
螞蟻靈波的技術布局呈現(xiàn)清晰的遞進邏輯:首日發(fā)布的LingBot-Depth專注于提升機器人三維視覺精度,在多項國際基準測試中取得領先;次日開源的LingBot-VLA則通過2萬小時真實機器人數(shù)據(jù)訓練,構建起覆蓋9種主流雙臂機器人構型的通用基座模型,實現(xiàn)"少量演示數(shù)據(jù)即可高質量任務遷移"的突破;最終壓軸登場的LingBot-VA創(chuàng)新性地融合視頻生成與動作控制,使機器人具備"邊推演邊行動"的類人決策能力。這種從感知到認知再到行動的完整技術鏈,標志著螞蟻集團AGI戰(zhàn)略向物理世界的關鍵延伸。
國際科技巨頭的快速反應印證了這場變革的敏感性。就在LingBot-World開源不足24小時后,谷歌DeepMind緊急宣布面向美國18歲以上Google AI Ultra訂閱用戶開放Project Genie體驗平臺。該原型雖支持通過文本或圖像創(chuàng)建交互式世界,但存在生成效果不夠逼真、單次生成限時60秒等技術局限。AI技術評測網站Gaga.art對比指出,谷歌當前采取的"可控開放"策略與其技術實力形成反差,而螞蟻靈波的徹底開源模式更有利于構建開發(fā)者生態(tài)。
兩種路徑的差異折射出不同的生態(tài)戰(zhàn)略考量。螞蟻靈波通過開源技術棧吸引全球開發(fā)者參與,意圖在具身智能等新興領域建立事實標準,形成"技術開源-應用創(chuàng)新-數(shù)據(jù)反哺"的良性循環(huán)。其配套發(fā)布的包含數(shù)據(jù)處理、模型微調及自動化評估的全套工具鏈,進一步強化了這種生態(tài)優(yōu)勢。而谷歌憑借現(xiàn)有平臺積累的用戶基礎,選擇通過訂閱制逐步釋放技術能力,在控制風險的同時探索商業(yè)化路徑。法國科技媒體PauseHardware分析認為,這種策略差異將深刻影響未來物理AI市場的競爭格局。
這場開源與封閉的技術路線之爭,正在重塑全球人工智能發(fā)展版圖。螞蟻靈波的突破性舉措,使得原本被少數(shù)企業(yè)壟斷的高端訓練環(huán)境走向普惠化。正如行業(yè)專家所言,當工業(yè)級技術向所有開發(fā)者開放時,物理AI領域的創(chuàng)新速度將呈現(xiàn)指數(shù)級增長。隨著更多開發(fā)者基于開源體系構建應用,一個由中國科技企業(yè)主導的新技術生態(tài)正在悄然形成。








