岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear旗下自媒體矩陣:

Nature頂刊新基準:全球頂尖AI模型在“人類終極考試”中表現欠佳

   時間:2026-03-08 02:45:20 來源:快訊編輯:快訊 IP:北京 發表評論無障礙通道
 

AI技術發展日新月異,從高德納對Claude破解難題的驚嘆,到數學家陶哲軒宣稱GPT-5.2 Pro解決數學難題達到博士水平,AI在各個領域不斷突破。然而,在被稱為“人類最后的考試”的新基準測試中,即便是最先進的AI模型也表現不佳,最高得分僅8%,這一結果引發了廣泛關注。

隨著AI模型能力的迅速提升,傳統基準測試逐漸失去效力。大規模多任務語言理解(MMLU)等曾被視為高難度的評測,如今AI的準確率已超過90%,甚至接近“飽和”。研究人員指出,這些測試過于簡單,難以真實反映AI的先進水平,更無法確保其安全性和有效性。為了應對這一挑戰,全球近千名研究人員組成聯盟,開發了名為“人類最后的考試”(Humanity’s Last Exam,HLE)的新基準。

HLE由AI安全中心CAIS和Scale AI團隊共同開發,包含3000個極具挑戰性的問題,最終篩選出2500道用于測試。這些問題覆蓋數學、人文學科、自然科學、古代語言及高度專業化的子領域,旨在全面評估AI的能力。每道題都經過領先AI模型的測試,只有那些當前系統無法解答的問題才會被保留,確保測試恰好處于AI能力邊界之外。

初步測試結果顯示,即便是最先進的模型也難以應對HLE的挑戰:GPT-4o僅得2.7%,Claude 3.5 Sonnet為4.1%,而OpenAI的旗艦模型o1也僅取得8%的成績。這一結果凸顯了HLE的高難度,也表明當前AI在復雜、專業化知識領域仍存在明顯局限。

德州農工大學計算機科學與工程系副教授Tung Nguyen參與了HLE的題目撰寫和完善工作,貢獻了73道考題,尤其在數學和計算機科學領域撰寫了大量題目。他指出,HLE的目的并非難倒人類,而是精確揭示AI目前無法完成的任務。盡管AI在傳統基準測試中表現優異,但這些測試未必能衡量真正的“智能”。HLE的命名雖有玩笑成分,但其核心理念是設立一道人類對AI的終極考驗——如果AI能通過,則意味著它達到了專業化人類專家的水平。

HLE的問題需要多年的專門研究才能解答,僅靠互聯網數據的“猜測”無法奏效。例如,考試涵蓋從核物理到古代史的廣泛領域,沒有人類能獨自通過整個考試,但特定領域的專家可以輕松回答其專業內的問題。相比之下,AI在幾乎所有類別上都表現不佳,凸顯了其在深度專業知識方面的不足。

 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 手机看片日韩av | 五月婷婷丁香综合 | 人人av在线 | 青青操免费在线视频 | 亚洲青涩在线 | 色婷婷婷 | 欧美在线中文字幕 | 色在线观看视频 | 国产日韩av在线播放 | 久久久久久久一区 | 色婷婷视频在线 | 天天摸天天操天天干 | 久久综合免费视频 | 日韩av中文字幕在线播放 | 三级久久久 | 国产精品久久久久久久久久久久久久久久 | 超碰在线亚洲 | 欧美特大黄| 国产一级色片 | 久久久久久久成人 | 国产xxxx性hd极品 | 亚洲天堂影院 | 日韩视频免费在线观看 | 华人永久免费视频 | 国内毛片毛片毛片 | 国产亚洲欧美视频 | 一级黄色片一级黄色片 | 欧美国产中文字幕 | 天天色天天色 | 三级天堂 | 亚洲精品在线免费观看视频 | 日本美女黄色一级片 | 97视频在线免费观看 | 手机看片亚洲 | 一级黄色免费毛片 | 一道本在线播放 | 中文字幕国产精品 | 91国产视频在线观看 | 亚洲欧美国产高清va在线播放 | 成人免费超碰 | 日韩av免费网址 |