當人類廚師熟練地用雙手處理食材時,看似簡單的動作背后隱藏著復雜的神經協調機制。這種與生俱來的雙臂協作能力,如今成為人工智能領域最具挑戰性的課題之一。清華大學聯合香港多所高校及北京人形機器人創新中心,在機器人雙臂操作能力評估領域取得突破性進展,其研發的BiManiBench測試系統為評估機器人雙手協作能力建立了全新標準,相關成果已發表于學術預印本平臺。
研究團隊通過系統分析發現,現有AI模型在處理雙臂協調任務時存在顯著短板。盡管多模態大模型在語言理解和圖像識別方面表現優異,但當需要同時控制兩個機械臂完成抓取、傳遞、組裝等動作時,即便是最先進的模型也頻繁出現失誤。這種現象類似于人類中的"左撇子"與"右撇子"在協調雙手時的天然差異,但機器人面臨的是更復雜的空間計算和實時反饋問題。
該測試系統構建了三級評估體系:基礎層考察空間推理能力,要求機器人根據物體位置選擇最優手臂;中間層測試任務分解能力,需將復雜操作拆解為可執行的步驟序列;最高層則聚焦精確控制,要求機器人同時輸出16維連續動作指令,控制兩個7自由度機械臂完成協同操作。這種分層設計使評估體系既能檢測基礎能力,又能識別高級協調缺陷。
在測試過程中,研究團隊對30余個主流AI模型進行了全面評估,涵蓋閉源和開源系統。實驗數據顯示,在基礎空間推理任務中,表現最佳的模型準確率可達95%,但隨著任務復雜度提升,成功率顯著下降。特別是在需要精確時序控制的堆疊任務中,即使最先進的模型成功率也不足67%,而開源模型普遍低于30%。這種性能斷層暴露出當前AI架構在處理多肢體協調時的根本性局限。
評估機制的創新體現在評分系統的設計上。針對傳統二元評分法的局限性,研究團隊開發了高斯加權空間評分模型。該系統根據物體與中心線的距離動態調整評分權重,當物體位于中央區域時,系統對左右手選擇的容錯率提高30%。這種設計更符合人類實際操作中的模糊判斷,避免了因微小位置偏差導致的誤判。
為解決機器人視野遮擋問題,測試系統引入了多視角觀察機制。通過同步處理第一人稱視角的精細圖像和第三人稱視角的全局監控,模型能獲得更完整的場景信息。但實驗發現,這種多模態輸入對計算資源要求較高,部分中小規模模型在處理多視角數據時反而出現性能下降,這為后續模型優化提供了重要參考。
在動作執行策略方面,研究團隊提出了自適應截斷機制。該系統根據任務類型動態設定最大連續動作數,當執行到預設閾值時強制暫停,要求機器人重新觀察環境后再繼續操作。這種"安全緩沖"設計使任務完成率提升22%,特別是在涉及動態物體的操作中,有效減少了因環境變化導致的失誤。
深度錯誤分析揭示了不同模型的特性差異。以GPT-5和Gemini-2.5-Pro為例,前者在感知階段錯誤率較高,常出現物體定位偏差;后者則在規劃階段問題突出,容易產生雙手動作沖突。這種差異化表現提示研究者,提升雙臂協調能力需要針對不同模型架構開發專屬優化方案。
測試任務設計緊密結合實際應用場景,包含雙手搬運、工具使用、物品排序等23類日常操作。在模擬廚房環境中,機器人需要完成"一手持碗一手倒水"的精細動作,這項任務使85%的測試模型出現液體灑落。這類貼近現實的測試場景,為評估機器人實用化程度提供了可靠依據。
技術突破體現在多個創新模塊的集成。研究團隊開發的視覺驅動智能體框架,能將復雜操作分解為可執行的子任務序列;操作臂分配反饋機制可在手臂選擇錯誤時實時糾正;多視角融合算法則優化了空間感知能力。這些創新共同構成了完整的雙臂協調解決方案。
當前研究仍存在局限性。所有測試均在仿真環境進行,未考慮真實世界中的機械誤差、傳感器噪聲等因素;測試對象主要為剛性物體,對柔性材料操作的研究尚待深入;大型模型的推理速度也難以滿足實時控制需求。這些挑戰為后續研究指明了方向。
該成果對機器人產業發展具有重要推動作用。建立的標準化評估體系為廠商提供了客觀比較基準,有助于引導技術路線向實用化方向發展。特別是測試中暴露的共性問題,為學術界和產業界協同攻關提供了明確目標。隨著雙臂協調能力的提升,服務機器人、工業協作機器人等領域有望迎來新的突破。











