岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear科技資訊
手機版
二維碼
內容搜索
無障礙通道
語言：中文 EN

ITBear旗下自媒體矩陣：

滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

Nature頂刊新基準：全球頂尖AI模型在“人類終極考試”中表現欠佳

時間：2026-03-08 02:45:20 來源：快訊編輯：快訊 IP：北京 發表評論無障礙通道

AI技術發展日新月異，從高德納對Claude破解難題的驚嘆，到數學家陶哲軒宣稱GPT-5.2 Pro解決數學難題達到博士水平，AI在各個領域不斷突破。然而，在被稱為“人類最后的考試”的新基準測試中，即便是最先進的AI模型也表現不佳，最高得分僅8%，這一結果引發了廣泛關注。

隨著AI模型能力的迅速提升，傳統基準測試逐漸失去效力。大規模多任務語言理解（MMLU）等曾被視為高難度的評測，如今AI的準確率已超過90%，甚至接近“飽和”。研究人員指出，這些測試過于簡單，難以真實反映AI的先進水平，更無法確保其安全性和有效性。為了應對這一挑戰，全球近千名研究人員組成聯盟，開發了名為“人類最后的考試”（Humanity’s Last Exam，HLE）的新基準。

HLE由AI安全中心CAIS和Scale AI團隊共同開發，包含3000個極具挑戰性的問題，最終篩選出2500道用于測試。這些問題覆蓋數學、人文學科、自然科學、古代語言及高度專業化的子領域，旨在全面評估AI的能力。每道題都經過領先AI模型的測試，只有那些當前系統無法解答的問題才會被保留，確保測試恰好處于AI能力邊界之外。

初步測試結果顯示，即便是最先進的模型也難以應對HLE的挑戰：GPT-4o僅得2.7%，Claude 3.5 Sonnet為4.1%，而OpenAI的旗艦模型o1也僅取得8%的成績。這一結果凸顯了HLE的高難度，也表明當前AI在復雜、專業化知識領域仍存在明顯局限。

德州農工大學計算機科學與工程系副教授Tung Nguyen參與了HLE的題目撰寫和完善工作，貢獻了73道考題，尤其在數學和計算機科學領域撰寫了大量題目。他指出，HLE的目的并非難倒人類，而是精確揭示AI目前無法完成的任務。盡管AI在傳統基準測試中表現優異，但這些測試未必能衡量真正的“智能”。HLE的命名雖有玩笑成分，但其核心理念是設立一道人類對AI的終極考驗——如果AI能通過，則意味著它達到了專業化人類專家的水平。

HLE的問題需要多年的專門研究才能解答，僅靠互聯網數據的“猜測”無法奏效。例如，考試涵蓋從核物理到古代史的廣泛領域，沒有人類能獨自通過整個考試，但特定領域的專家可以輕松回答其專業內的問題。相比之下，AI在幾乎所有類別上都表現不佳，凸顯了其在深度專業知識方面的不足。

更多>同類資訊

2026全球開發者先鋒大會3月上海啟幕，前沿議題與互動體驗亮點紛呈

2026全球開發者先鋒大會將于3月27日至29日在上海舉行。這場面向全球開發者的盛會，將匯聚前沿技術與產業資源，推動人工智能領域的創新交流。本屆大會將以開幕式為核心，圍繞科學智能、AI應用、智能終端等領域，…

03-08

OpenAI重磅推出GPT-5.4：能力升級，成首個可操作計算機的通用AI模型

2026年3月5日，美國開放人工智能研究中心（OpenAI）正式推出GPT-5的最新升級版本 GPT-5.4，官方稱其為目前面向專業工作打造的能力最強、效率最高的前沿人工智能模型之一，這也是該公司首個能夠直…

03-08

2026年蘇州柔觸機器人：以柔性技術破局打造智能制造新范式

蘇州柔觸機器人科技有限公司以柔性夾爪為核心載體，走出一條技術差異化與場景規?；⑿械陌l展路徑，在精密制造、3C電子、汽車零部件、食品醫療等領域，成為2026年國內柔性抓取領域的代表性企業。產品覆蓋3C電子、…

03-08

全國人大代表賈少謙展望：陪伴型機器人將成家庭新成員情感交流家政服務兩不誤

3月5日，全國人大代表、海信集團董事長賈少謙在接受閃電新聞采訪時，描繪了機器人產業發展的清晰圖景。他表示，未來一兩年內，機器人將能像“閨蜜”一樣與人類進行情感交流與對話；十年之內，人形機器人有望真正走進家庭，…

03-08

四大核心策略助力CNC加工，實現人形機器人減速器零件微米級精度

選用硬質合金涂層等專用高精度刀具，適配不同核心零件加工需求。總結：以機床精度為基礎、工藝優化為核心、刀具管理為支撐、檢測閉環為保障，四大策略協同發力，可高效實現人形機器人減速器核心零件的微米級加工精度，滿…

03-08

深圳機器人產業開年加速跑：創新驅動，協同發展邁向全球高地

借“十五五”開局和APEC會議之機，南山區工業和信息化局相關負責人透露，今年南山將圍繞“機器人谷”生態升級實現三大突破：一是持續強鏈補鏈延鏈，進一步提升產業鏈供應鏈穩定性和自主可控水平；二是著力夯實產業承載…

03-08

知識賦能具身智能：工業機器人邁向高柔性智造新紀元

富唯智能全球獨創的GRID（任務規劃大模型）專門針對工業場景優化，通過融合知識圖譜（包含工藝流程）和語義地圖（包含環境信息），使得模型輸出的指令不僅準確，而且與實際物理環境緊密結合。知識驅動的具身智能工…

03-08

MWC2026見證變革：中國移動靈犀智能體開啟數智生活新未來

深耕通信入口優勢，中國移動靈犀智能體創新融合AI技術與通信服務，打破語言、操作、場景壁壘，讓傳統通信升級為高效、智能、普惠的數智交互通道。依托5G-A高速網絡與泛在算力底座，靈犀智能體持續開放核心能力，聯動…

03-08

三一機器人長沙聚首合作伙伴共繪智慧物流新藍圖簽約超5000臺

紅網時刻新聞3月6日訊（記者吳芳）3月6日，三一機器人2026合作伙伴大會在長沙舉行，大會以“同心征途聚勢共贏”為主題，來自全國各地的行業專家、合作伙伴、經銷商、供應商及營銷精英齊聚一堂，共同見證三一機…

03-08

全國人大代表黃立：湖北人形機器人產業崛起，規?；瘧脮r代來臨

人形機器人作為融合人工智能與物理實體的前沿技術，已經成為全球科技競爭的新焦點，也是“十五五”規劃中我國將重點發展的未來產業之一。面對這個科技競爭的新高地、未來產業的新賽道、經濟發展的新引擎，湖北將進一步增強發…

03-08

炒菜機器人進社區食堂：科技賦能傳統餐飲，攜手共繪智慧生活新圖景

不少人還對機器人“掌勺”這事感到新鮮，但其實，即便很多品牌不愿公開提及，從2025年起，炒菜機器人已經開始進入一些連鎖飯店后廚。在蘭州一家飯店，引入炒菜機器人后，廚師的數量減少到一半，原材料成本下降了30%…

03-08

南京江寧科創再突破！多倫科技智能查驗機器人重構車輛查驗新體驗

這位渾身透著科技感的智能“查驗官”身形緊湊、動作靈活，集人工智能與自動化技術于一身，精準直擊車輛辦事排隊久、效率低和監管易漏檢、難追溯等痛點，用硬核科技重構車輛查驗新體驗，彰顯江寧科創企業實干創新、服務民生…

03-08

馮遠征談AI創作局限，甄子丹笑稱“打不過機器人”并積極擁抱AI變革

在肯定技術賦能內容產業的同時，他提到，雖然AI可以在短期內生成大量的短劇、漫劇，其生成的畫面或許更加精致，但這項技術能起到的是輔助作用，AI無法替代人類創作。 3月6日，在駐地接受記者采訪時，甄子丹又一次提到…

03-08

華為無線專家：智能體時代來臨，無線網絡創新升級成關鍵支撐

如果說最近幾年的世界移動通信大會（MWC）都在熱議“以智興網”（AI For Network），也就是用AI技術去優化網絡本身的效率，那么2026年MWC的焦點則是“以網賦智”，即網絡如何去服務和支持AI的發…

03-08

AI浪潮下：甄子丹笑談“打不過機器人”，暢談人機共融新未來

03-08

點擊查看更多 +

全站最新

京東2025財報：AI賦能全鏈路，外賣投入縮減，新業務布局顯成效

零售業“她時代”：三位女掌門以商品力為筆，共繪中國零售新圖景

2月純電車型保值率洗牌：問界M9登頂榜首，小米SU7排名下滑至第七

2月純電車型保值率揭曉：問界M9登頂榜首，小米SU7排名下滑至第七

雷軍談AI時代工作變革：重復勞動被替代，未來或迎超短工時新模式

比亞迪技術發布會引跨界熱潮：九大品牌齊助陣，閃充續航雙突破開啟出行新篇章

熱門內容

本欄最新

智能出行新標桿：“賽博雅迪”以用戶為中心引領兩輪電動新風潮

AI賦能自媒體運營：六步搭建“人工智能應用”資訊自動發文流水線

“豬茅”牧原股份港股上市布局海外，智能化與出海能否開啟新增長？

華為中國合作伙伴大會2026 3月深圳啟幕共繪千行萬業數智化新藍圖

Anthropic再傳喜訊：Claude日新增用戶超百萬收入增長但成本高企

宋Ultra EV預售開啟：二代刀片電池加持，15.5萬起重塑B級純電SUV格局

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.