AIPress.com.cn報道
今天,螞蟻集團旗下靈波科技正式開源空間感知模型LingBot-Depth。
這是一個面向具身智能場景的深度補全模型,主要解決的問題是:傳統(tǒng)深度相機在遇到透明物體、玻璃表面、高反光材質(zhì)時,往往無法獲取有效的深度信息,導(dǎo)致機器人在這些場景下抓取失敗或發(fā)生碰撞。
LingBot-Depth的技術(shù)路線是用軟件補硬件的短板。模型基于奧比中光Gemini 330系列雙目3D相機采集的RGB-Depth數(shù)據(jù)進行訓(xùn)練,核心方法叫做"掩碼深度建模"。簡單說就是在訓(xùn)練過程中故意遮擋一部分深度數(shù)據(jù),讓模型學(xué)會根據(jù)RGB圖像推斷缺失的深度值。訓(xùn)練完成后,當(dāng)深度相機傳回的數(shù)據(jù)有缺失或噪聲時,模型可以結(jié)合彩色圖像的紋理、輪廓等信息進行補全。
官方數(shù)據(jù)顯示,在NYUv2、ETH3D等多個基準(zhǔn)測試中,LingBot-Depth在深度補全、單目深度估計和雙目匹配任務(wù)上達(dá)到當(dāng)前最優(yōu)水平。在透明物體抓取的實際測試中,機器人對透明儲物盒的抓握成功率達(dá)到50%,突破了傳統(tǒng)傳感器難以處理的技術(shù)瓶頸。
另一個亮點是模型的時間一致性。在處理視頻輸入時,無需顯式的時序建模就能生成穩(wěn)定連貫的深度序列,避免了閃爍和結(jié)構(gòu)跳變問題。
在硬件適配方面,LingBot-Depth搭載在奧比中光Gemini 330系列相機上測試,官方稱效果優(yōu)于業(yè)內(nèi)Stereolabs的ZED深度相機。這意味著不用更換更貴的傳感器,就能提升消費級深度相機對高難場景的處理能力。
目前模型、代碼和技術(shù)報告已全部開源,后續(xù)還將開源300萬對標(biāo)注數(shù)據(jù),包括200萬對實拍RGB-D樣本和100萬對渲染樣本。靈波科技與奧比中光已達(dá)成戰(zhàn)略合作,計劃推出基于該模型的新一代深度相機。團隊表示,這是他們在空間智能領(lǐng)域的第一步,本周還將陸續(xù)發(fā)布更多具身智能方向的成果。











