在具身智能技術(shù)快速發(fā)展的當(dāng)下,行業(yè)正面臨一個關(guān)鍵挑戰(zhàn):如何建立一套科學(xué)、統(tǒng)一且可驗證的評測體系。當(dāng)前,各家企業(yè)與研究機(jī)構(gòu)在展示技術(shù)成果時,往往采用不同的任務(wù)場景和評測標(biāo)準(zhǔn),導(dǎo)致不同系統(tǒng)之間的能力難以橫向比較,技術(shù)落地效果也缺乏客觀參照。這種“各說各話”的現(xiàn)狀,正阻礙著具身智能從實驗室走向真實應(yīng)用場景的進(jìn)程。
具身智能的特殊性在于,其技術(shù)表現(xiàn)高度依賴具體環(huán)境。同一系統(tǒng)在不同光照條件、物體材質(zhì)或任務(wù)順序下,性能可能產(chǎn)生顯著差異。然而,現(xiàn)有評測體系大多聚焦于高頻、簡單的標(biāo)準(zhǔn)化任務(wù),如抓取成功率或路徑規(guī)劃效率。這類基準(zhǔn)測試雖能推動行業(yè)早期發(fā)展,但隨著模型能力提升,其區(qū)分度逐漸下降,難以反映系統(tǒng)在復(fù)雜環(huán)境中的真實表現(xiàn)。當(dāng)模型能夠穩(wěn)定完成基礎(chǔ)任務(wù)后,繼續(xù)在同類場景中“刷分”,更多體現(xiàn)的是工程優(yōu)化能力,而非技術(shù)本質(zhì)突破。
針對這一痛點,上海交通大學(xué)等機(jī)構(gòu)聯(lián)合推出的GM-100評測體系,試圖通過任務(wù)多樣性和評估系統(tǒng)性構(gòu)建新的評測范式。該體系包含100個任務(wù),每個任務(wù)配備約100條訓(xùn)練軌跡和30條測試軌跡,總計1.3萬條操作軌跡。其核心設(shè)計理念是突破傳統(tǒng)評測的“舒適區(qū)”,重點覆蓋長尾任務(wù)和精細(xì)操作場景。例如,穿糖葫蘆、開抽屜、整理小物體等任務(wù),既包含人類認(rèn)為復(fù)雜的操作,也包含看似簡單但實際對機(jī)器人極具挑戰(zhàn)的場景。這種設(shè)計迫使模型必須具備更通用的環(huán)境適應(yīng)能力,而非僅針對特定任務(wù)優(yōu)化。
GM-100的任務(wù)生成過程融合了人類交互原語分析與大語言模型輔助設(shè)計。研究團(tuán)隊首先系統(tǒng)梳理了人類與物體交互的基礎(chǔ)動作模式,再通過大語言模型生成候選任務(wù),最終經(jīng)專家篩選形成任務(wù)庫。這種“人類經(jīng)驗+AI生成+專家驗證”的流程,確保了任務(wù)既貼近真實需求,又具備科學(xué)嚴(yán)謹(jǐn)性。例如,某些任務(wù)中,機(jī)器人需在物體被部分遮擋或位置偏移的情況下完成操作,這類場景在傳統(tǒng)評測中極少出現(xiàn),卻能更真實地反映系統(tǒng)在動態(tài)環(huán)境中的魯棒性。
在評估指標(biāo)上,GM-100突破了單一任務(wù)成功率的局限,引入部分成功率(PSR)和動作預(yù)測誤差等多維度指標(biāo)。PSR通過量化多步驟任務(wù)的細(xì)節(jié)完成情況,揭示模型在復(fù)雜任務(wù)中的局部能力短板;動作預(yù)測誤差則衡量模型在新軌跡上的模仿精度,防止模型通過“走捷徑”完成部分動作。這種設(shè)計有效遏制了“刷榜”行為,鼓勵研究者關(guān)注模型的真實泛化能力。例如,在測試主流具身學(xué)習(xí)模型時,不同模型在GM-100上的表現(xiàn)差異顯著,證明其任務(wù)設(shè)計能夠拉開技術(shù)差距,為模型能力提供可靠參考。
為推動評測體系的開放與可信,GM-100團(tuán)隊采用了“社區(qū)共建”模式。他們開源了全部任務(wù)的詳細(xì)說明、物料清單(甚至包含淘寶采購鏈接)以及真實機(jī)器人操作數(shù)據(jù),大幅降低了復(fù)現(xiàn)門檻。同時,平臺允許研究者自主上傳測試結(jié)果與證據(jù)視頻,并通過模型權(quán)重審核機(jī)制確保數(shù)據(jù)真實性。未來,平臺還計劃增加用戶點評、收藏等功能,形成“悠悠眾口”的監(jiān)督機(jī)制。這種去權(quán)威化的設(shè)計,既避免了單一機(jī)構(gòu)主導(dǎo)帶來的偏見,也通過群眾監(jiān)督讓“作弊”模型無處遁形。
GM-100的探索與LMArena等國際評測平臺形成呼應(yīng)。后者通過匿名雙盲對比和用戶投票構(gòu)建去中心化評估機(jī)制,而GM-100則通過跨平臺數(shù)據(jù)、詳盡交互說明和多維度指標(biāo)實現(xiàn)評估透明化。兩者的共同點在于,均試圖打破傳統(tǒng)評測對“權(quán)威”的依賴,轉(zhuǎn)而通過機(jī)制設(shè)計確保結(jié)果可信。這種范式轉(zhuǎn)變,或許預(yù)示著具身智能評測正從“實驗室標(biāo)準(zhǔn)”向“社區(qū)共識”演進(jìn)。
目前,GM-100的任務(wù)庫已覆蓋從簡單到復(fù)雜、從常見到罕見的全場景,但研究團(tuán)隊并未止步于此。他們計劃將任務(wù)數(shù)量擴(kuò)展至300甚至1000項,并推進(jìn)跨機(jī)器人平臺評測,以進(jìn)一步提升評測的覆蓋面。同時,未來評測維度可能納入進(jìn)度評分、安全性、社會價值等指標(biāo),推動具身智能向更工程化、更貼近真實需求的方向發(fā)展。盡管數(shù)據(jù)集構(gòu)建需要大量“擰螺絲”般的基礎(chǔ)工作,但研究者相信,這種“臟活累活”終將為行業(yè)技術(shù)演進(jìn)提供關(guān)鍵坐標(biāo)。










