滾動(dòng)資訊

當(dāng)前位置：首頁 > 資訊 > 人工智能 > 正文內(nèi)容

基準(zhǔn)測(cè)試不等于真實(shí)能力?研究稱AI代碼“通過率”或被高估最高達(dá)7倍

時(shí)間：2026-03-12 15:01:26 來源：CHINAZ編輯：快訊 IP：北京 發(fā)表評(píng)論無障礙通道

研究機(jī)構(gòu) METR 最新發(fā)布的一項(xiàng)研究顯示，被廣泛用于評(píng)估 AI 編程能力的基準(zhǔn)測(cè)試 SWE-bench Verified 可能顯著高估了 AI 代理在真實(shí)軟件開發(fā)環(huán)境中的表現(xiàn)。研究發(fā)現(xiàn)，在基準(zhǔn)測(cè)試中被判定為“通過”的 AI 代碼解決方案中，大約一半在實(shí)際項(xiàng)目維護(hù)者審核時(shí)會(huì)被拒絕，這意味著自動(dòng)化評(píng)測(cè)結(jié)果與真實(shí)工程質(zhì)量之間存在明顯差距。

SWE-bench Verified 長期被視為 AI 輔助軟件工程的重要評(píng)估標(biāo)準(zhǔn)之一，用于測(cè)試模型是否能夠解決開源項(xiàng)目中的真實(shí)編程問題，并通過自動(dòng)化測(cè)試驗(yàn)證代碼修改是否通過項(xiàng)目測(cè)試套件。包括 Anthropic 和 OpenAI 在內(nèi)的多家 AI 公司也經(jīng)常引用這一基準(zhǔn)成績展示模型能力進(jìn)展。

在此次研究中，METR 團(tuán)隊(duì)邀請(qǐng)了維護(hù)開源項(xiàng)目 scikit-learn、Sphinx 和 pytest 的四名資深開發(fā)者，對(duì)296段 AI 生成代碼進(jìn)行人工評(píng)審。這些代碼來自五個(gè)模型生成的解決方案，包括 Claude3.5Sonnet、Claude3.7Sonnet、Claude4Opus、Claude4.5Sonnet 以及 GPT-5。結(jié)果顯示，維護(hù)者實(shí)際采納率平均比 SWE-bench 自動(dòng)評(píng)分低約24個(gè)百分點(diǎn)，這一差異具有統(tǒng)計(jì)學(xué)意義。

研究還發(fā)現(xiàn)，被拒絕的 AI 代碼并非主要因?yàn)轱L(fēng)格問題，而是存在更實(shí)質(zhì)性的工程缺陷。維護(hù)者將問題分為三類:代碼質(zhì)量不符合項(xiàng)目規(guī)范、對(duì)現(xiàn)有代碼結(jié)構(gòu)造成破壞，以及基本功能錯(cuò)誤。其中相當(dāng)一部分案例屬于功能性錯(cuò)誤，即使自動(dòng)化測(cè)試通過，代碼仍未真正修復(fù)問題。

在模型對(duì)比方面，研究發(fā)現(xiàn)從 Claude3.5Sonnet 升級(jí)至 Claude3.7Sonnet 雖然顯著提升了基準(zhǔn)測(cè)試通過率，但維護(hù)者標(biāo)記的功能性錯(cuò)誤數(shù)量也有所增加;從 Claude3.7到 Claude4Opus，問題則更多轉(zhuǎn)向代碼質(zhì)量層面，而 Claude4.5Sonnet 在代碼質(zhì)量方面有所改進(jìn)。相比之下，GPT-5在本次評(píng)估中的整體表現(xiàn)明顯落后于 Anthropic 系列模型。

研究團(tuán)隊(duì)還對(duì)“任務(wù)時(shí)間跨度”進(jìn)行了估算分析:按 SWE-bench 自動(dòng)評(píng)估結(jié)果推算，Claude4.5Sonnet 完成達(dá)到50% 成功率的任務(wù)需要約50分鐘的人類工作量，而按維護(hù)者評(píng)分計(jì)算僅約8分鐘，意味著基準(zhǔn)測(cè)試可能存在高達(dá)約7倍的能力高估。

不過研究人員同時(shí)強(qiáng)調(diào)，該研究并不意味著 AI 編程代理能力存在根本性上限。通過更好的提示策略、更多人工反饋或多輪迭代，自動(dòng)評(píng)估與人工評(píng)審之間的差距仍可能縮小。實(shí)驗(yàn)環(huán)境也與真實(shí)開發(fā)流程存在差異，例如 AI 代理只有一次提交機(jī)會(huì)，而人類開發(fā)者通常可以根據(jù)反饋不斷修改代碼。

總體而言，該研究指出，單純依賴基準(zhǔn)測(cè)試分?jǐn)?shù)評(píng)估 AI 編程代理的實(shí)際效用可能產(chǎn)生系統(tǒng)性偏差。隨著 AI 編碼模型快速迭代，如何構(gòu)建更接近真實(shí)開發(fā)環(huán)境的評(píng)估體系，正成為 AI 軟件工程領(lǐng)域的重要研究方向。

03-12

OpenAI調(diào)整ChatGPT電商戰(zhàn)略：聚焦零售商應(yīng)用，弱化直接結(jié)賬模式

03-12

OpenClaw破局AI眼鏡困境：分層解耦架構(gòu)引領(lǐng)硬件新入口爭奪戰(zhàn)

03-12

英偉達(dá)20億美元注資Nebius 攜手打造AI云平臺(tái) 共拓智能時(shí)代新藍(lán)海

周三的投資聲明也建立在Nebius此前持續(xù)部署英偉達(dá)基礎(chǔ)設(shè)施的基礎(chǔ)上，其中包括在美國建設(shè)多個(gè)吉瓦級(jí)AI工廠。 “如今借助英偉達(dá)，我們正把這種能力擴(kuò)展到整個(gè)技術(shù)棧——從吉瓦級(jí)AI工廠到推理和軟件層，打造全球最…

03-12

中國信通院依托既有成果正式開啟智能助理智能體Claw系列標(biāo)準(zhǔn)編制

據(jù)中國信通院消息，中國信息通信研究院（簡稱“中國信通院”）依托中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟（AIIA）軟件智能化委員會(huì)，長期深耕“AI+軟件”領(lǐng)域，已發(fā)布開發(fā)/測(cè)試/運(yùn)維智能體、軟件智能化成熟度模型等多項(xiàng)國際國…

03-12

300-400MHz四葉草天線：以獨(dú)特設(shè)計(jì)解鎖中頻段通信新可能

3、頻段適配性：針對(duì)300-400MHz頻段，輻射臂的長度通常設(shè)計(jì)為該頻段中心波長的1/4至1/2，通過調(diào)整臂間距與相位關(guān)系，實(shí)現(xiàn)頻段內(nèi)的高效輻射。 3、高穩(wěn)定性：通過寬頻帶設(shè)計(jì)（覆蓋300-400MHz全…

03-12

3999元iPhone“寒酸”登場(chǎng)，蘋果換賽道布局AI，國產(chǎn)手機(jī)迎新挑戰(zhàn)？

但蘋果聰明就聰明在，它不跟國產(chǎn)手機(jī)卷硬件了，悄悄換了賽道。但如果你想窺探一下AI時(shí)代的未來，就會(huì)發(fā)現(xiàn)一個(gè)很現(xiàn)實(shí)的問題：現(xiàn)在的科技巨頭，早就不關(guān)心你的屏幕多亮、攝像頭多厲害，他們只關(guān)心，未來你把生活指令交給…

03-12

山西AI新勢(shì)力：數(shù)字人技術(shù)如何助力企業(yè)降本增效開啟商業(yè)新篇

說到山西 AI 公司哪家強(qiáng)，不得不提千里眼智能科技的技術(shù)優(yōu)勢(shì)。說到太原 AI領(lǐng)域的創(chuàng)新，數(shù)字人直播絕對(duì)是個(gè)亮點(diǎn)。在比較山西 AI公司哪家好時(shí)，價(jià)格和技術(shù)都是關(guān)鍵因素。隨著AI技術(shù)發(fā)展，數(shù)字人正在成為…

03-12

REDMI手機(jī)語音翻譯全指南：從免稅店到居酒屋，跨文化交流無障礙實(shí)測(cè)

對(duì)著手機(jī)說"打開翻譯功能"，系統(tǒng)會(huì)自動(dòng)彈出包含文本翻譯、語音翻譯、同聲傳譯的選項(xiàng)菜單。在設(shè)置中開啟"懸浮字幕"功能，翻譯結(jié)果會(huì)以大字顯示在屏幕上方雖然REDMI原生翻譯功能已足夠強(qiáng)大，但在處理專業(yè)術(shù)語或…

03-12

英偉達(dá)豪擲260億美元布局未來：五年深耕開源AI大模型領(lǐng)域

03-12

日月光高雄新廠動(dòng)土：178億新臺(tái)幣投建瞄準(zhǔn)AI與HPC先進(jìn)封測(cè)需求

03-12

工信部發(fā)布“龍蝦”智能體安全指南：六要六不要筑牢安全防線

03-12

英偉達(dá)布局開源AI模型領(lǐng)域擬5年豪擲260億美元加速轉(zhuǎn)型與鞏固地位

03-12

零一汽車再獲12億融資新能源重卡研發(fā)加速 2026年二季度將實(shí)現(xiàn)常態(tài)化無人

03-12

日月光高雄新廠動(dòng)土：178億新臺(tái)幣投建助力AI與HPC先進(jìn)封測(cè)發(fā)展

03-12

全站最新

A股CPO概念股普跌，天孚通信、德科立跌超4%

A股銀行股普漲，渝農(nóng)商行、杭州銀行漲超2%

飛速創(chuàng)新沖擊港股"企業(yè)網(wǎng)絡(luò)解決方案第一股"，卡位數(shù)字轉(zhuǎn)型與AI浪潮

熱門內(nèi)容

本欄最新

山西AI新勢(shì)力：數(shù)字人技術(shù)如何助力企業(yè)降本增效開啟商業(yè)新篇

零一汽車再獲12億融資新能源重卡研發(fā)加速 2026年二季度將實(shí)現(xiàn)常態(tài)化無人

元基時(shí)代：以尖端視覺技術(shù)賦能企業(yè)，打造品牌數(shù)字化進(jìn)階新引擎

黃仁勛體驗(yàn)英偉達(dá)Alpamayo：22分鐘零接管，暢行擁堵路段顯實(shí)力

黃仁勛親身體驗(yàn)英偉達(dá)脫手駕駛系統(tǒng)，22分鐘應(yīng)對(duì)復(fù)雜路況全程無接管

2026AWE將至：華為鴻蒙智家“1+3+N”升級(jí)，開啟智慧生活新想象

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR比爾科技官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號(hào)-1 聯(lián)系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

基準(zhǔn)測(cè)試不等于真實(shí)能力?研究稱AI代碼“通過率”或被高估最高達(dá)7倍