螞蟻集團旗下具身智能企業(yè)靈波科技近日宣布,其自主研發(fā)的高精度空間感知模型LingBot-Depth正式開源。該模型通過融合奧比中光Gemini 330系列雙目3D相機的原始數(shù)據(jù),顯著提升了機器人、自動駕駛等智能終端在復(fù)雜環(huán)境中的三維視覺能力,為行業(yè)突破空間感知瓶頸提供了新方案。
在權(quán)威基準測試中,LingBot-Depth展現(xiàn)出領(lǐng)先優(yōu)勢。對比PromptDA與PriorDA等主流模型,其在NYUv2室內(nèi)場景評測中的相對誤差(REL)降低超70%,ETH3D稀疏SfM任務(wù)中的RMSE誤差減少約47%。這一突破源于模型對環(huán)境深度信息的精準解析能力,尤其在處理透明、反光物體時表現(xiàn)突出。
傳統(tǒng)深度相機在面對玻璃、鏡面等材質(zhì)時,常因光學(xué)特性導(dǎo)致數(shù)據(jù)丟失或噪聲干擾。靈波科技研發(fā)的“掩碼深度建模”(MDM)技術(shù),通過整合RGB圖像的紋理、輪廓及環(huán)境上下文信息,實現(xiàn)了對缺失深度數(shù)據(jù)的智能補全。實驗數(shù)據(jù)顯示,搭載該技術(shù)的Gemini 330系列相機,在強逆光、復(fù)雜曲面等極端場景下,輸出的深度圖仍保持邊緣銳利、結(jié)構(gòu)完整,性能優(yōu)于Stereolabs ZED Stereo Depth等國際標桿產(chǎn)品。
模型訓(xùn)練依托于靈波科技構(gòu)建的核心數(shù)據(jù)集,包含200萬組真實場景深度配對數(shù)據(jù)及100萬組仿真數(shù)據(jù),覆蓋近千萬份原始樣本。這一數(shù)據(jù)資產(chǎn)將于近期開源,旨在降低行業(yè)研發(fā)門檻,加速復(fù)雜場景空間感知技術(shù)的普及。奧比中光已宣布,將基于LingBot-Depth推出新一代深度相機,進一步強化硬件與算法的協(xié)同效應(yīng)。
此次開源標志著螞蟻靈波科技在具身智能領(lǐng)域的技術(shù)沉淀進入新階段。據(jù)內(nèi)部人士透露,除空間感知模型外,該公司本周還將陸續(xù)開源多款具身智能方向的核心模型,持續(xù)推動行業(yè)生態(tài)建設(shè)。











