滾動資訊

當(dāng)前位置：首頁 > 資訊 > 人工智能 > 正文內(nèi)容

上海交大發(fā)布GM-100評測體系，具身智能有了“統(tǒng)一考題”新探索

時間：2026-01-27 17:10:56 來源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評論無障礙通道

在具身智能技術(shù)快速發(fā)展的當(dāng)下，行業(yè)正面臨一個關(guān)鍵挑戰(zhàn)：如何建立一套科學(xué)、統(tǒng)一且可驗證的評測體系。當(dāng)前，各家企業(yè)與研究機(jī)構(gòu)在展示技術(shù)成果時，往往采用不同的任務(wù)場景和評測標(biāo)準(zhǔn)，導(dǎo)致不同系統(tǒng)之間的能力難以橫向比較，技術(shù)落地效果也缺乏客觀參照。這種“各說各話”的現(xiàn)狀，正阻礙著具身智能從實驗室走向真實應(yīng)用場景的進(jìn)程。

具身智能的特殊性在于，其技術(shù)表現(xiàn)高度依賴具體環(huán)境。同一系統(tǒng)在不同光照條件、物體材質(zhì)或任務(wù)順序下，性能可能產(chǎn)生顯著差異。然而，現(xiàn)有評測體系大多聚焦于高頻、簡單的標(biāo)準(zhǔn)化任務(wù)，如抓取成功率或路徑規(guī)劃效率。這類基準(zhǔn)測試雖能推動行業(yè)早期發(fā)展，但隨著模型能力提升，其區(qū)分度逐漸下降，難以反映系統(tǒng)在復(fù)雜環(huán)境中的真實表現(xiàn)。當(dāng)模型能夠穩(wěn)定完成基礎(chǔ)任務(wù)后，繼續(xù)在同類場景中“刷分”，更多體現(xiàn)的是工程優(yōu)化能力，而非技術(shù)本質(zhì)突破。

針對這一痛點，上海交通大學(xué)等機(jī)構(gòu)聯(lián)合推出的GM-100評測體系，試圖通過任務(wù)多樣性和評估系統(tǒng)性構(gòu)建新的評測范式。該體系包含100個任務(wù)，每個任務(wù)配備約100條訓(xùn)練軌跡和30條測試軌跡，總計1.3萬條操作軌跡。其核心設(shè)計理念是突破傳統(tǒng)評測的“舒適區(qū)”，重點覆蓋長尾任務(wù)和精細(xì)操作場景。例如，穿糖葫蘆、開抽屜、整理小物體等任務(wù)，既包含人類認(rèn)為復(fù)雜的操作，也包含看似簡單但實際對機(jī)器人極具挑戰(zhàn)的場景。這種設(shè)計迫使模型必須具備更通用的環(huán)境適應(yīng)能力，而非僅針對特定任務(wù)優(yōu)化。

GM-100的任務(wù)生成過程融合了人類交互原語分析與大語言模型輔助設(shè)計。研究團(tuán)隊首先系統(tǒng)梳理了人類與物體交互的基礎(chǔ)動作模式，再通過大語言模型生成候選任務(wù)，最終經(jīng)專家篩選形成任務(wù)庫。這種“人類經(jīng)驗+AI生成+專家驗證”的流程，確保了任務(wù)既貼近真實需求，又具備科學(xué)嚴(yán)謹(jǐn)性。例如，某些任務(wù)中，機(jī)器人需在物體被部分遮擋或位置偏移的情況下完成操作，這類場景在傳統(tǒng)評測中極少出現(xiàn)，卻能更真實地反映系統(tǒng)在動態(tài)環(huán)境中的魯棒性。

在評估指標(biāo)上，GM-100突破了單一任務(wù)成功率的局限，引入部分成功率（PSR）和動作預(yù)測誤差等多維度指標(biāo)。PSR通過量化多步驟任務(wù)的細(xì)節(jié)完成情況，揭示模型在復(fù)雜任務(wù)中的局部能力短板；動作預(yù)測誤差則衡量模型在新軌跡上的模仿精度，防止模型通過“走捷徑”完成部分動作。這種設(shè)計有效遏制了“刷榜”行為，鼓勵研究者關(guān)注模型的真實泛化能力。例如，在測試主流具身學(xué)習(xí)模型時，不同模型在GM-100上的表現(xiàn)差異顯著，證明其任務(wù)設(shè)計能夠拉開技術(shù)差距，為模型能力提供可靠參考。

為推動評測體系的開放與可信，GM-100團(tuán)隊采用了“社區(qū)共建”模式。他們開源了全部任務(wù)的詳細(xì)說明、物料清單（甚至包含淘寶采購鏈接）以及真實機(jī)器人操作數(shù)據(jù)，大幅降低了復(fù)現(xiàn)門檻。同時，平臺允許研究者自主上傳測試結(jié)果與證據(jù)視頻，并通過模型權(quán)重審核機(jī)制確保數(shù)據(jù)真實性。未來，平臺還計劃增加用戶點評、收藏等功能，形成“悠悠眾口”的監(jiān)督機(jī)制。這種去權(quán)威化的設(shè)計，既避免了單一機(jī)構(gòu)主導(dǎo)帶來的偏見，也通過群眾監(jiān)督讓“作弊”模型無處遁形。

GM-100的探索與LMArena等國際評測平臺形成呼應(yīng)。后者通過匿名雙盲對比和用戶投票構(gòu)建去中心化評估機(jī)制，而GM-100則通過跨平臺數(shù)據(jù)、詳盡交互說明和多維度指標(biāo)實現(xiàn)評估透明化。兩者的共同點在于，均試圖打破傳統(tǒng)評測對“權(quán)威”的依賴，轉(zhuǎn)而通過機(jī)制設(shè)計確保結(jié)果可信。這種范式轉(zhuǎn)變，或許預(yù)示著具身智能評測正從“實驗室標(biāo)準(zhǔn)”向“社區(qū)共識”演進(jìn)。

目前，GM-100的任務(wù)庫已覆蓋從簡單到復(fù)雜、從常見到罕見的全場景，但研究團(tuán)隊并未止步于此。他們計劃將任務(wù)數(shù)量擴(kuò)展至300甚至1000項，并推進(jìn)跨機(jī)器人平臺評測，以進(jìn)一步提升評測的覆蓋面。同時，未來評測維度可能納入進(jìn)度評分、安全性、社會價值等指標(biāo)，推動具身智能向更工程化、更貼近真實需求的方向發(fā)展。盡管數(shù)據(jù)集構(gòu)建需要大量“擰螺絲”般的基礎(chǔ)工作，但研究者相信，這種“臟活累活”終將為行業(yè)技術(shù)演進(jìn)提供關(guān)鍵坐標(biāo)。

更多>同類資訊

美光新加坡啟動NAND新晶圓廠建設(shè) 240億美元投資助力AI存儲需求

01-27

特斯拉奧斯汀開放無安全員Robotaxi服務(wù)，乘客38次叫車未果運營規(guī)模待擴(kuò)大

01-27

AI熱潮致內(nèi)存短缺三星SK海力士與蘋果談判 iPhone內(nèi)存價格或大幅上調(diào)

01-27

進(jìn)迭時空1月29日將推全球首款RVA23規(guī)范高性能RISC-V AI CPU芯片K3

01-27

跨境電商新引擎：Hilight一鍵生成商用視頻，AI驅(qū)動營銷變革新篇章

從技術(shù)層面來看，Hilight這種突破性的“慢思考”邏輯、采用Multi-Agent的協(xié)作方式無疑是最核心的創(chuàng)新之處，這也是全球首個AI原生電商視頻Multi-Agent，相比市面上的“快餐型”AI視頻生成…

01-27

禮來攜手英偉達(dá)：AI制藥新紀(jì)元，開啟醫(yī)藥行業(yè)“次世代”變革

01-27

長安汽車加速科技轉(zhuǎn)型：人形機(jī)器人2028年量產(chǎn) 飛行汽車2030年商用

01-27

Zoom股價漲超10%！2023年5100萬美元投資Anthropic成新增長亮點

01-27

國產(chǎn)“通矩模型”實現(xiàn)新突破：自主出題解題，AI題首入高規(guī)格數(shù)學(xué)競賽

01-27

從生成到編輯：Hyper3D率先破局，3D生成可編輯時代開啟新篇章

01-27

螞蟻集團(tuán)靈波科技開源LingBot-Depth模型，破解透明物體深度感知難題

01-27

DeepSeek-OCR 2模型發(fā)布：創(chuàng)新DeepEncoder V2方法，AI視覺編碼更近人類邏輯

01-27

平樂千年柿業(yè)煥新顏：數(shù)智助力“黃金果”出山達(dá)海興鄉(xiāng)村

與此同時，桂林移動融合人工智能與區(qū)塊鏈技術(shù)為桂林平樂柿子打造專屬溯源平臺，為每份柿子產(chǎn)品賦予了“數(shù)字身份證”。從保障品牌盛會的高清直播，到賦能交通動脈的智慧運營，再到深入產(chǎn)業(yè)鏈的各個環(huán)節(jié)，數(shù)字技術(shù)正全方位融…

01-27

螞蟻靈波科技開源LingBot-Depth模型攻克透明反光物空間感知難題

01-27

英偉達(dá)20億美元加碼CoreWeave，AI算力賽道合作再掀熱潮

01-27

點擊查看更多 +

全站最新

奧迪堅持F1廠隊模式，以挑戰(zhàn)者之姿向2030總冠軍目標(biāo)進(jìn)發(fā)

快手電商“豐收中國”啟航，首站內(nèi)蒙古牽手達(dá)人，共促特色商品熱銷

跨境電商新引擎：Hilight一鍵生成商用視頻，AI驅(qū)動營銷變革新篇章

卡車也會"智慧運算"？中國重汽智能輔助駕駛，給出干線物流增效最優(yōu)解

A股異動丨亞士創(chuàng)能跌逾4% 控股股東的一致行動人擬被動減持3%公司股份

港股異動丨南華期貨股份創(chuàng)上市新高，已被納入港股通

熱門內(nèi)容

本欄最新

特斯拉奧斯汀開放無安全員Robotaxi服務(wù)，乘客38次叫車未果運營規(guī)模待擴(kuò)大

跨境電商新引擎：Hilight一鍵生成商用視頻，AI驅(qū)動營銷變革新篇章

從“人找樁”到“樁找車”，嵐圖汽車智慧超充站破百引領(lǐng)補能新變革

精智實業(yè)赴港上市：2025年前9月營收4.18億多元業(yè)務(wù)布局顯成效

李想展望理想汽車未來：2028年前L4自動駕駛落地爭做全棧技術(shù)頭部企業(yè)

2026深圳互聯(lián)網(wǎng)人才結(jié)構(gòu)大變革：復(fù)合型人才崛起與獵頭服務(wù)新機(jī)遇

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) 魯ICP備11015305號-1 聯(lián)系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

上海交大發(fā)布GM-100評測體系，具身智能有了“統(tǒng)一考題”新探索