岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear旗下自媒體矩陣:

透明反光場景不掉鏈子:螞蟻靈波開源高精度空間感知模型

   時間:2026-01-28 11:40:59 來源:智東西編輯:快訊 IP:北京 發表評論無障礙通道
 

拿捏機器人找準位置不迷路難題,代碼、檢查點已開源。

作者 | 程茜

編輯 | 漠影

機器人前瞻1月27日報道,今日,螞蟻集團旗下具身智能公司靈波科技正式開源高精度空間感知模型LingBot-Depth,搭載LingBot-Depth模型的奧比中光Gemini 330系列相機在深度精度和像素覆蓋率方面,均優于頂級深度相機。

螞蟻靈波公布的一系列下游任務實驗結果進一步表明,LingBot-Depth可在RGB與深度模態間,輸出精準對齊的潛在特征表示,讓靈巧手在抓取高度透明和反光物體時的成功率大大提升。

當下關于機器人落地應用的美好構想層出不窮,但要讓這些設想照進現實,有一個核心前提繞不開:機器人必須能與物理世界順暢交互。小到抬手從桌上取一杯水,大到完成各類復雜的實景作業,所有操作的第一步,都得讓機器人先明確一個關鍵問題:“我在哪?”

但當下常見的空間定位感知方式,會因鏡面反射、無紋理表面等情況產生深度誤差,就意味著機器人獲取的環境幾何信息是模糊、失真的。機器人連基礎的“我在哪”都無法明確,更無從談起后續的精準操作與交互,這正是LingBot-Depth模型要解決的痛點。

從行業價值來看,該模型的核心突破在于用算法創新彌補了硬件短板,無需更換高端傳感器,就能讓消費級RGB-D相機實現超高性能,這恰好契合了當前工業、服務機器人領域對高精度、低成本感知方案的迫切需求,也為具身智能三維空間感知能力從基礎層避障導航,向更高級別的復雜場景建模、人類級空間理解邁進提供了關鍵技術支撐。

在NYUv2、ETH3D等主流3D視覺基準評測中,相較于PromptDA、PriorDA等業界主流深度補全模型,LingBot-Depth在室內場景下相對誤差(REL)降幅超70%,在高挑戰性的稀疏SfM任務中,均方根誤差(RMSE)也降低約47%。

目前,螞蟻靈波已經開源了代碼、檢查點,并計劃于近期開源300萬個RGB深度對,包括200萬個真實數據和100萬個合成數據。該公司此次將模型代碼與數據全鏈路開源,或倒逼RGB-D相機硬件的優化升級,進一步提升模型在真實長尾場景中的魯棒性,讓機器人、自動駕駛汽車等產品加速走進現實場景。

▲GitHub開源主頁

01.

解鎖機器人高精度空間感知

實測性能超越主流模型

一句話總結,LingBot-Depth模型解決的是讓機器人具有精確的空間視覺感知能力,也就是看清楚、知道自己在哪里。

先來看下這一模型的性能表現。根據螞蟻靈波公開的技術報告,其實驗結果表明,LingBot-Depth模型在深度精度與像素覆蓋率兩項核心指標上均超越業界頂級深度相機。

對于機器人而言,其在抓取透明、反光物體時時常會出現判斷失誤的情況。測試結果顯示,LingBot-Depth模型透明收納箱抓取成功率從0%提升至50%,同時在多種反光和透明物體上提升了30%~78%的抓取成功率。

具體來看,在深度補全任務上,該模型與主流的深度補全模型OMNI-DC、PromptDA、PriorDA相比,基于分塊深度掩碼法和稀疏攝影測量(SfM)深度輸入法進行了效果對比。LingBot-Depth模型在室內、室外場景下的預測深度與真實深度的偏差都相對更小,顯著優于當前主流的基線方法。

▲LingBot-Depth模型與主流模型相比的效果

在分塊深度掩碼法的評測設置下,LingBot-Depth模型在不同難度等級中性能均持續優于其他模型,證明了該模型面對重度掩碼和噪聲干擾時具備較優抗干擾能力。

在稀疏攝影測量(SfM)深度輸入法設置下,LingBot-Depth模型生成的深度圖具備更清晰的深度邊界和更連貫的結構特征,并且在遮擋嚴重或觀測信息稀疏的區域優勢更為明顯。

▲兩種協議下的模型對比效果

如下圖所示,LingBot-Depth模型生成的圖像包含更清晰的邊界和更完整的結構。

單目深度估計能力上,LingBot-Depth模型在10項基準上的表現均優于視覺模型DINOv2,其測試結果顯示,LingBot-Depth模型的預訓練范式可以有效地將3D幾何知識提煉到編碼器中,提高其從單目圖像推斷深度結構的能力。

研究人員還將LingBot-Depth模型,作為強單目深度先驗融入FoundationStereo模型中,結果顯示加速雙目匹配模型訓練后,FoundationStereo收斂更快。

從性能表現來看,LingBot-Depth 模型不僅驗證了其技術路徑的有效性,更凸顯了其背后深刻的行業價值。

最直觀的就是,LingBot-Depth模型有效攻克了機器人空間感知的核心痛點,即便是傳統相機難以捕捉的低紋理、遮擋或弱光區域,機器人也能通過該模型實現清晰感知。同時,它顯著縮小了普通消費級RGB-D相機與高端深度相機之間的性能差距,讓低成本設備也能輸出接近專業級的深度數據,為機器人等各類智能設備的空間感知能力筑牢了技術根基。

02.

LingBot-Depth要讓機器人看清路、定準位

就像人類出行需要通過視覺清晰感知路況、判斷距離、定位自身位置一樣,機器人執行任務時也依賴精準的空間視覺感知能力,既需要看懂周圍的三維布局,還要準確定位自己的坐標。

這種能力是機器人實現自主導航、避障和復雜操作的底層基礎,而追求精確的三維感知已成為基于物理的AI研究的核心支柱,其重要性不言而喻。

從行業落地視角來看,讓機器人實現穩定、有效的空間感知,需滿足三大核心標準:具備絕對度量尺度、能輸出像素級對齊的稠密幾何信息、支持無需高算力后處理的實時采集。而目前業內唯一能同時滿足這些實時性要求的成像方案,唯有RGB-D相機。

然而,RGB-D相機的硬件短板卻成為技術規模化應用的關鍵掣肘之一。受固有的硬件局限影響,基于雙目的深度相機方式,會通過兩個鏡頭從略有差異的視角同時拍攝場景,系統通過匹配兩幅圖像中的對應點來計算深度。

但該相機在面對光滑、鏡面反射、反光等復雜光照條件,其依靠像素級局部紋理進行推理、猜測補全缺失圖像的策略就會失效,而這些復雜場景在真實的工廠、家庭等環境很常見。

LingBot-Depth模型的出現,正是為破解這一行業核心痛點提供了切實可行的技術路徑,其背后的殺手锏就是MDM(掩碼深度建模)。

MDM相對應的就是此前主流MAE(掩碼自編碼器)方法的局限性,MAE在訓練過程中無法學習和理解真實物理世界的空間幾何規律。

而MDM在訓練時將RGB-D傳感器的天然深度缺失作為“原生掩碼”,將傳感器失效區域視為可學習的結構線索而非簡單噪聲,通過掩碼深度建模(Masked Depth Modeling, MDM)機制充分利用 RGB 圖像中的視覺上下文信息,對缺失深度區域進行智能推斷與補全。模型在補全真實深度缺失的過程中,可以學出貼合物理世界的度量級、高精度完整深度表示。

簡單說,MDM就是將傳感器的缺陷變成了訓練AI的素材,讓AI學習真實世界的物理規則,而不是人工編的假規則,這使得最后練出的AI能精準測出真實的3D距離。

如此一來,模型便能逐步習得這類空間感知規律:當識別到玻璃類的視覺外觀與反射特征時,就能精準推斷出其對應的深度范圍。

在此之上,基于統一單目深度估計和深度補全的目標,MDM框架可以作為通用的多功能模型,從任意RGB-D輸入生成度量尺度、像素對齊的密集深度圖。

機器人行業正邁向規模化應用落地的關鍵階段,螞蟻靈波在MDM機制上的探索在攻克精準空間感知這一核心難題上提出了新解法,或加速機器人真正邁入自主感知、自主決策、自主執行的智能新階段。

03.

千萬級樣本煉就機器人“火眼金睛”

讓機器人靈巧操作落地可期

找對可行路徑,下一步要做的就是落地實現。

為支持大規模MDM訓練,研究人員首先搭建了一套可擴展的數據整理流程,實現原始傳感器數據與可靠監督信息的高效對接。該流程設計兩大并行數據分支,分別是基于自托管的3D資產生成合成數據,以及通過模塊化3D打印采集裝置完成實景數據采集,這一裝置兼容主動立體相機(Intel RealSense、奧比中光Gemini)和被動立體相機(ZED)等多款消費級RGB-D相機。

基于這一套設計,其累計獲取了100萬個合成樣本、200萬個真實世界樣本,所有樣本均包含同步的RGB圖像、原始傳感器深度數據及立體圖像對。

其中立體圖像對的偽深度監督,由基于FoundationStereo、經合成數據訓練的自定義立體匹配網絡實現。研究人員還融合多個公開RGB-D數據集豐富了數據語料庫,最終構建出包含1000萬條樣本的多樣化高質量訓練集。

結合該RGB-D語料庫,研究人員采用掩碼深度建模方式對ViT-Large模型進行預訓練,通過注意力機制將度量幾何信息融入語義標記,可有效提升RGB-D相機的空間感知質量。

在可擴展雙支數據整理流程、超大規模高質量訓練集、針對性預訓練優化感知這樣的全棧技術創新下,LingBot-Depth模型已經有了落地到實際應用的潛力。

因此,研究人員基于LingBot-Depth模型開展了多組實驗驗證,選用Orbbec Gemini-335相機作為RGB-D輸入設備,完成了3D點跟蹤、靈巧手抓取等典型任務的實測驗證。

可以看到在3D點跟蹤案例中,當場景包含大面積的玻璃時,原始深度傳感器會嚴重失效,經LingBot-Depth模型優化后的深度數據,能夠生成更加平滑和精確的相機軌跡。

▲原始相機和基于LingBot-Depth模型優化的3D跟蹤效果對比

還有真實世界的靈巧手抓取,其采用了配備X Hand-1靈巧手的Rokae XMate-SR5機械臂、用于感知的Orbbec Gemini 335 RGB-D相機。LingBot-Depth模型在抓取高度透明物體時的成功率達到50%,但原始方法完全無法抓取。

▲靈巧手抓取成功率對比

雖然這些只是在實驗室的測試,但這些測試場景均對標了機器人落地應用中的高頻實際場景,已充分展現出該技術方案的高實用性與落地潛力。

04.

結語:讓機器人看懂物理世界的關鍵一步

整體而言,LingBot-Depth模型在解決機器人空間感知能力核心痛點上更進一步,既實現了感知性能的提升,又大幅降低了技術落地成本,為各類智能應用的開發筑牢了技術基礎,是推動機器人真正“看懂”物理世界的關鍵突破。

對于開發者而言,其無需再從零開展空間感知的基礎研究,可直接基于該模型快速搭建各類應用,這將大幅加速一眾智能設備的研發與落地進程,讓機器人、自動駕駛汽車等產品更快從技術概念走進現實場景。

 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 视频一区二区三区四区五区 | eeuss中文 | 天天看片网站 | 成人中文字幕在线观看 | 亚洲综合激情网 | 日本va在线观看 | 91亚洲综合 | 日韩一级片中文字幕 | 在线观看亚洲国产 | 国产精品久久 | 性高潮久久久久久久 | 四虎av在线播放 | 美女一区二区视频 | 成人极品视频 | 日韩网站免费观看 | 亚洲一区二区在线视频 | 中文字幕 亚洲一区 | 在线色网站| www久久com| 久久久久无码国产精品一区 | 国产第3页 | 久久久欧美精品sm网站 | 91久久精品视频 | 在线a网 | 婷婷日韩| 自拍偷在线精品自拍偷无码专区 | 在线啪 | 国产又粗又长免费视频 | 草在线视频 | 国产一区二区不卡 | 日韩在线视频网址 | 在线97| 女人十八毛片嫩草av | 亚洲少妇激情 | 欧美日一区二区 | 中国a一片一级一片 | 热久久av| 免费在线中文字幕 | 精品国产一区二区三区久久久蜜臀 | 亚洲一区免费观看 | 九九国产精品视频 |