螞蟻集團(tuán)旗下靈波科技近日宣布,正式開源其自主研發(fā)的空間感知模型LingBot-Depth,為具身智能領(lǐng)域帶來突破性解決方案。該模型聚焦傳統(tǒng)深度相機(jī)在復(fù)雜場景中的技術(shù)局限,通過軟件算法彌補(bǔ)硬件性能短板,為機(jī)器人感知能力升級開辟新路徑。
在透明物體、玻璃表面及高反光材質(zhì)等特殊場景中,現(xiàn)有深度相機(jī)常因光線干擾無法獲取有效數(shù)據(jù),導(dǎo)致機(jī)器人抓取失敗或碰撞事故頻發(fā)。LingBot-Depth創(chuàng)新采用"掩碼深度建模"技術(shù),通過在訓(xùn)練階段隨機(jī)遮擋部分深度數(shù)據(jù),迫使模型學(xué)習(xí)從RGB圖像中推斷缺失信息。這種訓(xùn)練方式使模型具備強(qiáng)大的數(shù)據(jù)補(bǔ)全能力,能夠結(jié)合物體紋理、輪廓等視覺特征,對存在噪聲或缺失的深度數(shù)據(jù)進(jìn)行智能修復(fù)。
實(shí)測數(shù)據(jù)顯示,搭載該模型的機(jī)器人在處理透明儲物盒時,抓握成功率提升至50%,較傳統(tǒng)傳感器實(shí)現(xiàn)質(zhì)的飛躍。在NYUv2、ETH3D等國際權(quán)威基準(zhǔn)測試中,LingBot-Depth在深度補(bǔ)全、單目深度估計(jì)及雙目匹配三項(xiàng)核心指標(biāo)上均達(dá)到行業(yè)領(lǐng)先水平。特別在視頻流處理方面,模型無需額外時序建模即可生成穩(wěn)定連貫的深度序列,有效解決了傳統(tǒng)方法易出現(xiàn)的畫面閃爍和結(jié)構(gòu)畸變問題。
硬件適配性方面,該模型與奧比中光Gemini 330系列雙目3D相機(jī)完成深度優(yōu)化,實(shí)測表現(xiàn)優(yōu)于國際知名品牌ZED深度相機(jī)。這意味著消費(fèi)級設(shè)備無需更換高價傳感器,即可顯著提升對復(fù)雜場景的感知能力。靈波科技透露,模型已實(shí)現(xiàn)全維度開源,除核心代碼外,后續(xù)還將公開300萬組標(biāo)注數(shù)據(jù)集,包含200萬組實(shí)拍RGB-D樣本及100萬組渲染數(shù)據(jù)。
此次技術(shù)突破源于靈波科技與奧比中光的戰(zhàn)略協(xié)同,雙方計(jì)劃聯(lián)合推出新一代智能深度相機(jī)。據(jù)研發(fā)團(tuán)隊(duì)介紹,LingBot-Depth僅是空間智能技術(shù)布局的起點(diǎn),本周內(nèi)還將陸續(xù)發(fā)布多項(xiàng)具身智能領(lǐng)域的創(chuàng)新成果,持續(xù)推動機(jī)器人感知技術(shù)的邊界拓展。











