在人工智能領域,一套名為“人類最后的考試”(HLE)的測試題長期被視為衡量AI能力的重要標準。然而,阿里巴巴集團與Qwen團隊聯合開展的一項研究顯示,這套權威測試題存在諸多缺陷,可能導致對AI能力的誤判。經過系統性修正,研究團隊發布了HLE-Verified版本,為AI評測提供了更可靠的基準。
HLE測試題涵蓋數學、物理、化學、生物醫學、計算機科學等多個學科,每道題均具有較高難度。但研究人員發現,部分題目存在描述模糊、答案錯誤或解題過程不合理等問題。這些問題引發了學術界的質疑:AI的錯誤表現究竟是能力不足,還是測試題本身存在缺陷?
為解決這一問題,阿里巴巴研究團隊啟動了一項大規模的驗證工程。他們對原版2500道題目進行了全面篩查,采用“初步篩查”與“深度治療”相結合的兩階段流程。在初步篩查階段,團隊邀請各領域專家、8個先進AI模型以及內部專家團隊共同參與,確保題目描述清晰、答案正確且解題過程合理。最終,僅641道題目被認定為完全無誤,可直接使用。
剩余題目中,1170道被標記為“可修復”。研究團隊采用“雙重保險”機制,由兩個獨立專家團隊分別提出修復方案,再由內部專家綜合評估,選擇最優方案或合并改進。同時,AI模型被引入修復驗證環節,確保修復后的題目能有效避免原有問題。經過這一階段,1170道題目成功“重生”,與第一階段的641道共同構成1811道可靠題目。
另有689道題目因涉及爭議性學術觀點、超出當前驗證范圍或存在多種合理解釋,被標記為“不確定”狀態。研究團隊詳細記錄了每道題的具體問題及所需專業知識,為后續研究提供參考。這一分類方式既避免了強行修正可能引發的偏差,也為學術界保留了討論空間。
研究團隊對題目中的錯誤類型進行了系統分類。題目描述錯誤包括語義模糊、知識錯誤、信息缺失、理論錯誤及格式錯誤;解題過程錯誤涵蓋推理冗余、循環論證、邏輯矛盾等十種類型;答案錯誤則涉及答案不正確、不完整或表述模糊等問題。不同學科的錯誤模式差異顯著:數學與生物醫學領域答案錯誤較多,物理與人文社科領域表述問題突出,計算機科學領域則常見格式錯誤。
為驗證修復效果,研究團隊讓七個主流AI模型在原版與修復版題目上分別測試。結果顯示,所有模型在修復版上的準確率平均提升7至10個百分點,在原有問題題目上的準確率提升達30至40個百分點。AI模型在回答修復版題目時表現出更高的“自信心”,即答案確定性顯著增強。這一發現表明,題目質量直接影響AI的表現評估。
從學科維度看,物理與生物醫學領域的改進最為顯著,這兩個領域原AI準確率較低,修復后提升幅度最大;化學與計算機科學領域改進幅度較小,但整體趨勢積極。這一差異反映了不同學科在題目設計上的特點,也為針對性優化提供了方向。
AI模型自信心與題目質量的相關性為評測提供了新視角。研究發現,當題目存在缺陷時,AI模型傾向于給出低確定性答案;修復后,其答案確定性普遍提高。這一規律可用于識別潛在問題題目:若多個模型對某題均表現出低自信心,則該題可能存在缺陷。
這項研究不僅修正了一套權威測試題,更引發了對AI評測體系的深層思考。研究指出,使用有缺陷的基準評估AI,可能導致對技術能力的誤判,甚至誤導研發方向。通過建立系統化的驗證流程、詳細的錯誤分類體系及嚴格的質量控制標準,研究團隊為AI評測基準的維護與改進提供了可復制的范式。
目前,HLE-Verified數據集已完全開源,研究團隊公開了每道題的修改記錄與錯誤分類信息,供全球研究者參考。對于689道“不確定”題目,團隊提供了詳細的問題描述與專業知識標簽,期待后續研究能進一步完善這些題目。這一開放姿態體現了學術共享精神,也為AI評測的持續優化奠定了基礎。
對公眾而言,這項研究意味著對AI能力的評價將更加可信。當媒體報道“某AI在權威測試中表現優異”時,公眾可更有信心地接受這一結論。對開發者而言,更準確的評測基準能幫助他們更清晰地定位技術短板,制定有效的改進策略。這一基礎性工作雖不顯眼,卻對AI技術的健康發展至關重要。
欲了解技術細節,可查閱arXiv平臺論文(編號:arXiv:2602.13964v2),其中包含完整的方法描述、實驗數據與深入分析。











