在人工智能領(lǐng)域,一套名為“人類最后的考試”(HLE)的測(cè)試題長(zhǎng)期被視為衡量AI能力的重要標(biāo)準(zhǔn)。然而,阿里巴巴集團(tuán)與Qwen團(tuán)隊(duì)聯(lián)合開展的一項(xiàng)研究顯示,這套權(quán)威測(cè)試題存在諸多缺陷,可能導(dǎo)致對(duì)AI能力的誤判。經(jīng)過系統(tǒng)性修正,研究團(tuán)隊(duì)發(fā)布了HLE-Verified版本,為AI評(píng)測(cè)提供了更可靠的基準(zhǔn)。
HLE測(cè)試題涵蓋數(shù)學(xué)、物理、化學(xué)、生物醫(yī)學(xué)、計(jì)算機(jī)科學(xué)等多個(gè)學(xué)科,每道題均具有較高難度。但研究人員發(fā)現(xiàn),部分題目存在描述模糊、答案錯(cuò)誤或解題過程不合理等問題。這些問題引發(fā)了學(xué)術(shù)界的質(zhì)疑:AI的錯(cuò)誤表現(xiàn)究竟是能力不足,還是測(cè)試題本身存在缺陷?
為解決這一問題,阿里巴巴研究團(tuán)隊(duì)啟動(dòng)了一項(xiàng)大規(guī)模的驗(yàn)證工程。他們對(duì)原版2500道題目進(jìn)行了全面篩查,采用“初步篩查”與“深度治療”相結(jié)合的兩階段流程。在初步篩查階段,團(tuán)隊(duì)邀請(qǐng)各領(lǐng)域?qū)<摇?個(gè)先進(jìn)AI模型以及內(nèi)部專家團(tuán)隊(duì)共同參與,確保題目描述清晰、答案正確且解題過程合理。最終,僅641道題目被認(rèn)定為完全無誤,可直接使用。
剩余題目中,1170道被標(biāo)記為“可修復(fù)”。研究團(tuán)隊(duì)采用“雙重保險(xiǎn)”機(jī)制,由兩個(gè)獨(dú)立專家團(tuán)隊(duì)分別提出修復(fù)方案,再由內(nèi)部專家綜合評(píng)估,選擇最優(yōu)方案或合并改進(jìn)。同時(shí),AI模型被引入修復(fù)驗(yàn)證環(huán)節(jié),確保修復(fù)后的題目能有效避免原有問題。經(jīng)過這一階段,1170道題目成功“重生”,與第一階段的641道共同構(gòu)成1811道可靠題目。
另有689道題目因涉及爭(zhēng)議性學(xué)術(shù)觀點(diǎn)、超出當(dāng)前驗(yàn)證范圍或存在多種合理解釋,被標(biāo)記為“不確定”狀態(tài)。研究團(tuán)隊(duì)詳細(xì)記錄了每道題的具體問題及所需專業(yè)知識(shí),為后續(xù)研究提供參考。這一分類方式既避免了強(qiáng)行修正可能引發(fā)的偏差,也為學(xué)術(shù)界保留了討論空間。
研究團(tuán)隊(duì)對(duì)題目中的錯(cuò)誤類型進(jìn)行了系統(tǒng)分類。題目描述錯(cuò)誤包括語義模糊、知識(shí)錯(cuò)誤、信息缺失、理論錯(cuò)誤及格式錯(cuò)誤;解題過程錯(cuò)誤涵蓋推理冗余、循環(huán)論證、邏輯矛盾等十種類型;答案錯(cuò)誤則涉及答案不正確、不完整或表述模糊等問題。不同學(xué)科的錯(cuò)誤模式差異顯著:數(shù)學(xué)與生物醫(yī)學(xué)領(lǐng)域答案錯(cuò)誤較多,物理與人文社科領(lǐng)域表述問題突出,計(jì)算機(jī)科學(xué)領(lǐng)域則常見格式錯(cuò)誤。
為驗(yàn)證修復(fù)效果,研究團(tuán)隊(duì)讓七個(gè)主流AI模型在原版與修復(fù)版題目上分別測(cè)試。結(jié)果顯示,所有模型在修復(fù)版上的準(zhǔn)確率平均提升7至10個(gè)百分點(diǎn),在原有問題題目上的準(zhǔn)確率提升達(dá)30至40個(gè)百分點(diǎn)。AI模型在回答修復(fù)版題目時(shí)表現(xiàn)出更高的“自信心”,即答案確定性顯著增強(qiáng)。這一發(fā)現(xiàn)表明,題目質(zhì)量直接影響AI的表現(xiàn)評(píng)估。
從學(xué)科維度看,物理與生物醫(yī)學(xué)領(lǐng)域的改進(jìn)最為顯著,這兩個(gè)領(lǐng)域原AI準(zhǔn)確率較低,修復(fù)后提升幅度最大;化學(xué)與計(jì)算機(jī)科學(xué)領(lǐng)域改進(jìn)幅度較小,但整體趨勢(shì)積極。這一差異反映了不同學(xué)科在題目設(shè)計(jì)上的特點(diǎn),也為針對(duì)性優(yōu)化提供了方向。
AI模型自信心與題目質(zhì)量的相關(guān)性為評(píng)測(cè)提供了新視角。研究發(fā)現(xiàn),當(dāng)題目存在缺陷時(shí),AI模型傾向于給出低確定性答案;修復(fù)后,其答案確定性普遍提高。這一規(guī)律可用于識(shí)別潛在問題題目:若多個(gè)模型對(duì)某題均表現(xiàn)出低自信心,則該題可能存在缺陷。
這項(xiàng)研究不僅修正了一套權(quán)威測(cè)試題,更引發(fā)了對(duì)AI評(píng)測(cè)體系的深層思考。研究指出,使用有缺陷的基準(zhǔn)評(píng)估AI,可能導(dǎo)致對(duì)技術(shù)能力的誤判,甚至誤導(dǎo)研發(fā)方向。通過建立系統(tǒng)化的驗(yàn)證流程、詳細(xì)的錯(cuò)誤分類體系及嚴(yán)格的質(zhì)量控制標(biāo)準(zhǔn),研究團(tuán)隊(duì)為AI評(píng)測(cè)基準(zhǔn)的維護(hù)與改進(jìn)提供了可復(fù)制的范式。
目前,HLE-Verified數(shù)據(jù)集已完全開源,研究團(tuán)隊(duì)公開了每道題的修改記錄與錯(cuò)誤分類信息,供全球研究者參考。對(duì)于689道“不確定”題目,團(tuán)隊(duì)提供了詳細(xì)的問題描述與專業(yè)知識(shí)標(biāo)簽,期待后續(xù)研究能進(jìn)一步完善這些題目。這一開放姿態(tài)體現(xiàn)了學(xué)術(shù)共享精神,也為AI評(píng)測(cè)的持續(xù)優(yōu)化奠定了基礎(chǔ)。
對(duì)公眾而言,這項(xiàng)研究意味著對(duì)AI能力的評(píng)價(jià)將更加可信。當(dāng)媒體報(bào)道“某AI在權(quán)威測(cè)試中表現(xiàn)優(yōu)異”時(shí),公眾可更有信心地接受這一結(jié)論。對(duì)開發(fā)者而言,更準(zhǔn)確的評(píng)測(cè)基準(zhǔn)能幫助他們更清晰地定位技術(shù)短板,制定有效的改進(jìn)策略。這一基礎(chǔ)性工作雖不顯眼,卻對(duì)AI技術(shù)的健康發(fā)展至關(guān)重要。
欲了解技術(shù)細(xì)節(jié),可查閱arXiv平臺(tái)論文(編號(hào):arXiv:2602.13964v2),其中包含完整的方法描述、實(shí)驗(yàn)數(shù)據(jù)與深入分析。











