一場(chǎng)聚焦視頻生成模型實(shí)用性的國際技術(shù)競(jìng)賽正在全球范圍內(nèi)掀起熱潮。由高德地圖視覺技術(shù)中心聯(lián)合清華大學(xué)、流形空間及多所國際頂尖高校發(fā)起的CVPR 2026 WorldArena Challenge,首次將"物理真實(shí)性"作為核心評(píng)測(cè)標(biāo)準(zhǔn),推動(dòng)世界模型從"視覺逼真"向"功能可用"的關(guān)鍵轉(zhuǎn)型。這場(chǎng)挑戰(zhàn)賽依托新發(fā)布的WorldArena Benchmark評(píng)測(cè)體系,通過16項(xiàng)量化指標(biāo)和3大真實(shí)應(yīng)用任務(wù),全面檢驗(yàn)?zāi)P驮跈C(jī)器人操作等具身任務(wù)中的實(shí)用價(jià)值。
傳統(tǒng)視頻生成模型雖能產(chǎn)出以假亂真的畫面,但在機(jī)器人操作場(chǎng)景中常出現(xiàn)夾爪穿透物體、物品無故消失等物理違規(guī)現(xiàn)象。針對(duì)這一行業(yè)痛點(diǎn),賽事組委會(huì)創(chuàng)新性設(shè)立雙賽道評(píng)測(cè)機(jī)制:賽道一重點(diǎn)考察視頻生成的物理合理性,從視覺質(zhì)量、動(dòng)作連貫性、3D空間準(zhǔn)確性等六大維度進(jìn)行綜合評(píng)分;賽道二則首次將評(píng)測(cè)延伸至具身任務(wù)執(zhí)行層面,要求模型具備數(shù)據(jù)合成、策略評(píng)估和行動(dòng)規(guī)劃三大核心能力。這種"從看到做"的評(píng)測(cè)范式,標(biāo)志著世界模型評(píng)估體系的重大突破。
為降低參賽門檻,主辦方高德地圖完全開源了其領(lǐng)先的世界模型ABot-PhysWorld。該模型通過四維泛化數(shù)據(jù)訓(xùn)練體系,構(gòu)建了覆蓋50余種任務(wù)類型、1000多種物體類別的30萬條高質(zhì)量數(shù)據(jù)集,有效解決了模型場(chǎng)景適配性問題。其獨(dú)創(chuàng)的DPO偏好對(duì)齊機(jī)制,利用視覺語言模型構(gòu)造的1萬條偏好數(shù)據(jù)對(duì),使模型物理違規(guī)率降低67%。在Dense Action Map技術(shù)的支持下,模型可實(shí)現(xiàn)毫米級(jí)動(dòng)作控制,在PAI-Bench基準(zhǔn)測(cè)試中以0.8491的綜合得分刷新行業(yè)紀(jì)錄,同時(shí)保持極具競(jìng)爭力的視覺質(zhì)量。
賽事技術(shù)委員會(huì)特別強(qiáng)調(diào),ABot-PhysWorld作為開源基線模型將不參與最終評(píng)獎(jiǎng),參賽團(tuán)隊(duì)可在此基礎(chǔ)上進(jìn)行任意創(chuàng)新。該模型已完整開放模型權(quán)重、訓(xùn)練代碼及數(shù)據(jù)處理流程,其創(chuàng)新的"視覺-物理"雙通道架構(gòu)為行業(yè)提供了全新研究范式。值得注意的是,高德近期連續(xù)發(fā)布多款具身智能模型,結(jié)合ABot-World系列的持續(xù)布局,顯示出其在物理世界建模領(lǐng)域的深厚積累。
本次挑戰(zhàn)賽設(shè)置總計(jì)1.4萬美元的獎(jiǎng)金池,各賽道獨(dú)立評(píng)選一、二、三等獎(jiǎng),優(yōu)秀團(tuán)隊(duì)將獲得CVPR Workshop專題報(bào)告機(jī)會(huì)。賽事采用動(dòng)態(tài)排行榜機(jī)制,參賽者可通過官網(wǎng)實(shí)時(shí)提交結(jié)果,最終截止日期為2026年5月25日。參賽流程高度簡化,開發(fā)者僅需準(zhǔn)備初始幀和動(dòng)作指令,即可生成符合要求的121幀視頻作品。目前已有來自23個(gè)國家的140余支團(tuán)隊(duì)報(bào)名參賽,包括普林斯頓大學(xué)、新加坡國立大學(xué)等頂尖機(jī)構(gòu)。
賽事官網(wǎng)同步開放了豐富的技術(shù)資源,包括詳細(xì)的數(shù)據(jù)集說明、基線模型使用指南及評(píng)測(cè)工具包。為促進(jìn)技術(shù)交流,組委會(huì)建立了微信和Discord雙平臺(tái)交流社區(qū),并提供專項(xiàng)技術(shù)支持郵箱。這場(chǎng)聚焦物理世界建模的技術(shù)盛會(huì),不僅為全球研究者提供了公平競(jìng)技的舞臺(tái),更可能催生出真正理解物理規(guī)律的下一代視頻生成模型。










