上海交通大學聯合多家科研機構與企業的研究團隊,在機器人技術領域取得突破性進展。他們開發的Mantis系統通過創新框架設計,使機器人具備"視覺預見"能力,能夠像人類一樣預測未來場景并規劃動作序列。這項成果已發表于計算機視覺領域權威會議,論文編號arXiv:2511.16175v1。
傳統機器人系統如同初學步的孩童,只能基于當前視覺輸入做出即時反應。研究團隊發現,這種"走一步看一步"的模式導致學習效率低下,就像試圖通過靜態照片學習騎自行車般困難。更嚴峻的是,現有系統在掌握動作技能后,往往喪失理解復雜語言指令的能力,形成"技術專精卻溝通障礙"的困境。
Mantis系統的核心創新在于"解耦視覺預見"框架。該設計將未來畫面預測與動作執行兩個核心任務分離處理,通過潛在動作查詢技術建立關聯。這種技術如同在機器人大腦中植入"動作偵探",能精準捕捉當前場景與未來畫面間的關鍵變化,并將動作指令傳遞給執行模塊。實驗表明,這種解耦設計使系統學習效率提升數倍。
研究團隊采用漸進式訓練策略,模擬人類學習過程。首階段通過海量人類操作視頻訓練預測模型,次階段引入真實機器人數據強化動作銜接,最終階段融入語言理解訓練。這種三階段訓練法使系統在保持操作精度的同時,具備理解復雜指令的能力。測試顯示,系統能準確識別"把杯子放到泰勒·斯威夫特身上"等指令中的語義關聯。
自適應時序集成技術是該系統的另一亮點。這項技術可根據任務復雜度動態調配計算資源,在精細操作時啟動全功率計算,簡單移動時自動降頻運行。這種智能調節機制使系統推理計算量減少50%,而任務成功率保持不變。在LIBERO仿真平臺上,Mantis以96.7%的成功率超越多個先進系統,學習速度更是達到傳統方法的3-5倍。
真實場景測試驗證了系統的泛化能力。研究團隊設計了包含世界知識、基礎推理和意圖理解的三階段測試。在處理"把熊放到數字(3+5)上"等新穎指令時,Mantis展現出顯著優勢,而當前領先的π0.5模型則表現不佳。這證明語言監督訓練對維持機器人認知能力的重要性。
技術分析顯示,視覺預見模塊的殘差連接設計對捕捉潛在動作信息至關重要。通過人類操作視頻預訓練的方式,使系統能快速掌握基礎操作模式。但研究也指出當前局限:系統缺乏機器人本體狀態感知,導致偶爾出現動作回退。未來改進方向包括整合3D點云數據和優化推理算法。
這項突破為機器人技術發展開辟新路徑。通過系統架構創新,Mantis成功平衡了操作精度與認知能力,這種平衡對機器人融入人類生活場景具有關鍵意義。從家庭服務到工業生產,具備視覺預見能力的機器人有望在多個領域引發變革。












