螞蟻集團旗下具身智能公司靈波科技近日宣布開源其高精度空間感知模型LingBot-Depth,這一進展為機器人與自動駕駛領域帶來新的技術突破。該模型基于奧比中光Gemini 330系列雙目3D相機的原始數據開發,通過提升環境深度感知與三維空間理解能力,使智能終端能夠更精準地"看懂"三維世界,有效解決了傳統深度相機在復雜場景下的性能瓶頸。
在權威基準測試中,LingBot-Depth展現出顯著優勢。對比主流模型PromptDA與PriorDA,該模型在室內場景的相對誤差(REL)降低超70%,在稀疏SfM任務中的RMSE誤差下降約47%,刷新了行業精度記錄。這一突破得益于其獨特的"掩碼深度建模"技術,該技術通過融合RGB圖像的紋理、輪廓及環境上下文信息,能夠智能補全深度數據缺失區域,生成邊緣更清晰的三維深度圖。
針對透明玻璃、高反光鏡面等傳統深度相機的感知難題,LingBot-Depth通過奧比中光深度視覺實驗室驗證,在復雜光學場景下仍能輸出平滑完整的深度圖。實驗數據顯示,搭載該模型的Gemini 330系列在透明及反光場景中的表現明顯優于Stereolabs的ZED深度相機,物體輪廓邊緣銳利度提升顯著,且無需升級傳感器硬件即可實現性能躍升。
支撐模型性能的核心是靈波科技構建的龐大真實場景數據集。研發團隊采集近千萬份原始樣本,篩選出200萬組高價值深度配對數據用于訓練,其中包含200萬真實世界數據和100萬仿真數據。這套核心數據資產將隨模型同步開源,為行業攻克復雜場景空間感知難題提供關鍵資源。目前,靈波科技已與奧比中光達成戰略合作,雙方計劃基于該模型聯合開發新一代深度相機產品。
據悉,靈波科技將于近期陸續開源多款具身智能方向模型,持續推動空間智能技術的開源生態建設。此次LingBot-Depth的開源不僅為學術界提供研究基礎,也為工業界降低三維視覺技術應用門檻,加速智能終端在家庭、物流、制造等場景的落地進程。










