滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

阿里巴巴團隊出手：為AI權威測試“人類最后的考試”精準糾錯

時間：2026-02-25 21:34:32 來源：互聯網編輯：快訊 IP：北京 發表評論無障礙通道

在人工智能領域，一套名為“人類最后的考試”（HLE）的測試題長期被視為衡量AI能力的重要標準。然而，阿里巴巴集團與Qwen團隊聯合開展的一項研究顯示，這套權威測試題存在諸多缺陷，可能導致對AI能力的誤判。經過系統性修正，研究團隊發布了HLE-Verified版本，為AI評測提供了更可靠的基準。

HLE測試題涵蓋數學、物理、化學、生物醫學、計算機科學等多個學科，每道題均具有較高難度。但研究人員發現，部分題目存在描述模糊、答案錯誤或解題過程不合理等問題。這些問題引發了學術界的質疑：AI的錯誤表現究竟是能力不足，還是測試題本身存在缺陷？

為解決這一問題，阿里巴巴研究團隊啟動了一項大規模的驗證工程。他們對原版2500道題目進行了全面篩查，采用“初步篩查”與“深度治療”相結合的兩階段流程。在初步篩查階段，團隊邀請各領域專家、8個先進AI模型以及內部專家團隊共同參與，確保題目描述清晰、答案正確且解題過程合理。最終，僅641道題目被認定為完全無誤，可直接使用。

剩余題目中，1170道被標記為“可修復”。研究團隊采用“雙重保險”機制，由兩個獨立專家團隊分別提出修復方案，再由內部專家綜合評估，選擇最優方案或合并改進。同時，AI模型被引入修復驗證環節，確保修復后的題目能有效避免原有問題。經過這一階段，1170道題目成功“重生”，與第一階段的641道共同構成1811道可靠題目。

另有689道題目因涉及爭議性學術觀點、超出當前驗證范圍或存在多種合理解釋，被標記為“不確定”狀態。研究團隊詳細記錄了每道題的具體問題及所需專業知識，為后續研究提供參考。這一分類方式既避免了強行修正可能引發的偏差，也為學術界保留了討論空間。

研究團隊對題目中的錯誤類型進行了系統分類。題目描述錯誤包括語義模糊、知識錯誤、信息缺失、理論錯誤及格式錯誤；解題過程錯誤涵蓋推理冗余、循環論證、邏輯矛盾等十種類型；答案錯誤則涉及答案不正確、不完整或表述模糊等問題。不同學科的錯誤模式差異顯著：數學與生物醫學領域答案錯誤較多，物理與人文社科領域表述問題突出，計算機科學領域則常見格式錯誤。

為驗證修復效果，研究團隊讓七個主流AI模型在原版與修復版題目上分別測試。結果顯示，所有模型在修復版上的準確率平均提升7至10個百分點，在原有問題題目上的準確率提升達30至40個百分點。AI模型在回答修復版題目時表現出更高的“自信心”，即答案確定性顯著增強。這一發現表明，題目質量直接影響AI的表現評估。

從學科維度看，物理與生物醫學領域的改進最為顯著，這兩個領域原AI準確率較低，修復后提升幅度最大；化學與計算機科學領域改進幅度較小，但整體趨勢積極。這一差異反映了不同學科在題目設計上的特點，也為針對性優化提供了方向。

AI模型自信心與題目質量的相關性為評測提供了新視角。研究發現，當題目存在缺陷時，AI模型傾向于給出低確定性答案；修復后，其答案確定性普遍提高。這一規律可用于識別潛在問題題目：若多個模型對某題均表現出低自信心，則該題可能存在缺陷。

這項研究不僅修正了一套權威測試題，更引發了對AI評測體系的深層思考。研究指出，使用有缺陷的基準評估AI，可能導致對技術能力的誤判，甚至誤導研發方向。通過建立系統化的驗證流程、詳細的錯誤分類體系及嚴格的質量控制標準，研究團隊為AI評測基準的維護與改進提供了可復制的范式。

目前，HLE-Verified數據集已完全開源，研究團隊公開了每道題的修改記錄與錯誤分類信息，供全球研究者參考。對于689道“不確定”題目，團隊提供了詳細的問題描述與專業知識標簽，期待后續研究能進一步完善這些題目。這一開放姿態體現了學術共享精神，也為AI評測的持續優化奠定了基礎。

對公眾而言，這項研究意味著對AI能力的評價將更加可信。當媒體報道“某AI在權威測試中表現優異”時，公眾可更有信心地接受這一結論。對開發者而言，更準確的評測基準能幫助他們更清晰地定位技術短板，制定有效的改進策略。這一基礎性工作雖不顯眼，卻對AI技術的健康發展至關重要。

欲了解技術細節，可查閱arXiv平臺論文（編號：arXiv:2602.13964v2），其中包含完整的方法描述、實驗數據與深入分析。

更多>同類資訊

太空數據中心新星Starcloud：A輪融資后估值11億，加速布局軌道計算未來

03-31

時隔半世紀人類再啟探月征程，“阿耳忒彌斯2號”進展及關聯上市公司一覽

03-31

萬臺機器人下線只是起點，智元如何讓人形機器人從舞臺走向千行百業？

03-31

庫克坐擁生態“圍城”：Siri開放引變局，2.0版“蘋果稅”蓄勢待發

03-31

B站再邁AI新步伐！內測Updream工具，助力UP主開啟創作新征程

03-31

B站入局AI創作賽道！內測Updream工具助力視頻內容生產新升級

03-31

AI“專屬電腦”時代來臨：從極客玩具到萬億市場新風口

03-31

順豐控股2025年成績單亮眼：營收達3082億，凈利潤斬獲111億

03-31

于東來“退休”另有深意：退居幕后仍為團隊指引方向

03-31

小米自研輸入法曝光：內置大模型，支持“系統級”AI 糾錯

03-31

“龍蝦”出海:聯想天禧 AI Claw 開啟內測，主打離線任務持續運行

03-31

?商業化神話！Kimi K2.5 發布僅一月，月之暗面 ARR 突破 1 億美金

03-31

雷軍官宣：小米今年AI投入160億正式啟動AI人才專項招聘計劃

站長之家（ChinaZ.com）3月30日消息:今日，小米創始人雷軍通過社交媒體發布消息，透露小米今年在人工智能（AI）領域的研發投入與資本開支總計達160億元，并在基座大模型、具身智能機器人等前沿項目上取…

03-31

智元萬臺通用具身機器人下線，引領行業開啟規模化商用與價值創造新篇章

智元機器人合伙人、高級副總裁王闖表示：“從正式下線的第10,000臺A3開始，我們正在見證人形機器人從開發態加速走向部署態的規模化落地，包括之前A2等成熟產品已經為這一進程積累了寶貴的實戰經驗。“我們將秉持…

03-31

2026具身智能：標準線劃定，行業分化下誰能領跑新賽道？

因為機器人不像是大模型，沒法直接從互聯網上抓取海量信息，一舉一動都需要實時實景的物理交互數據、力反饋信息等等，整體采集成本非常高，所以數據供給也就成了具身智能產業的新生產資料，甚至是決定機器人能力上限的一大…

03-31

點擊查看更多 +

全站最新

24小時環球政經要聞全覽 | 3月31日

韓股大跌3%！日經225指數跌破51000點

韓股跌幅擴大至4%

現貨黃金短線拉升報4550美元

現貨黃金快速拉升，升破4570美元

港股異動丨銅師傅首日掛牌上市：開盤重挫41%破發

熱門內容

本欄最新

2026具身智能：標準線劃定，行業分化下誰能領跑新賽道？

小米汽車答網友問第224集：詳解SU7女性安全、通透模式及電動尾翼

小米YU7 GT街頭亮相：高性能設計加持，能否在高端純電SUV市場突圍？

小米YU7 GT實車首現：高性能純電SUV來襲，能否攪動高端市場風云？

雷軍力推AI人才專項計劃：全球招募多階段人才，未來三年豪擲600億布局AI領域

雷軍造車五周年回顧：小米豪擲400億，智能電動汽車版圖正加速擴張

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

阿里巴巴團隊出手：為AI權威測試“人類最后的考試”精準糾錯