岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear旗下自媒體矩陣:

基準(zhǔn)測(cè)試不等于真實(shí)能力?研究稱AI代碼“通過率”或被高估最高達(dá)7倍

   時(shí)間:2026-03-12 15:01:26 來源:CHINAZ編輯:快訊 IP:北京 發(fā)表評(píng)論無障礙通道
 

研究機(jī)構(gòu) METR 最新發(fā)布的一項(xiàng)研究顯示,被廣泛用于評(píng)估 AI 編程能力的基準(zhǔn)測(cè)試 SWE-bench Verified 可能顯著高估了 AI 代理在真實(shí)軟件開發(fā)環(huán)境中的表現(xiàn)。研究發(fā)現(xiàn),在基準(zhǔn)測(cè)試中被判定為“通過”的 AI 代碼解決方案中,大約一半在實(shí)際項(xiàng)目維護(hù)者審核時(shí)會(huì)被拒絕,這意味著自動(dòng)化評(píng)測(cè)結(jié)果與真實(shí)工程質(zhì)量之間存在明顯差距。

SWE-bench Verified 長期被視為 AI 輔助軟件工程的重要評(píng)估標(biāo)準(zhǔn)之一,用于測(cè)試模型是否能夠解決開源項(xiàng)目中的真實(shí)編程問題,并通過自動(dòng)化測(cè)試驗(yàn)證代碼修改是否通過項(xiàng)目測(cè)試套件。包括 Anthropic 和 OpenAI 在內(nèi)的多家 AI 公司也經(jīng)常引用這一基準(zhǔn)成績展示模型能力進(jìn)展。

在此次研究中,METR 團(tuán)隊(duì)邀請(qǐng)了維護(hù)開源項(xiàng)目 scikit-learn、Sphinx 和 pytest 的四名資深開發(fā)者,對(duì)296段 AI 生成代碼進(jìn)行人工評(píng)審。這些代碼來自五個(gè)模型生成的解決方案,包括 Claude3.5Sonnet、Claude3.7Sonnet、Claude4Opus、Claude4.5Sonnet 以及 GPT-5。結(jié)果顯示,維護(hù)者實(shí)際采納率平均比 SWE-bench 自動(dòng)評(píng)分低約24個(gè)百分點(diǎn),這一差異具有統(tǒng)計(jì)學(xué)意義。

研究還發(fā)現(xiàn),被拒絕的 AI 代碼并非主要因?yàn)轱L(fēng)格問題,而是存在更實(shí)質(zhì)性的工程缺陷。維護(hù)者將問題分為三類:代碼質(zhì)量不符合項(xiàng)目規(guī)范、對(duì)現(xiàn)有代碼結(jié)構(gòu)造成破壞,以及基本功能錯(cuò)誤。其中相當(dāng)一部分案例屬于功能性錯(cuò)誤,即使自動(dòng)化測(cè)試通過,代碼仍未真正修復(fù)問題。

在模型對(duì)比方面,研究發(fā)現(xiàn)從 Claude3.5Sonnet 升級(jí)至 Claude3.7Sonnet 雖然顯著提升了基準(zhǔn)測(cè)試通過率,但維護(hù)者標(biāo)記的功能性錯(cuò)誤數(shù)量也有所增加;從 Claude3.7到 Claude4Opus,問題則更多轉(zhuǎn)向代碼質(zhì)量層面,而 Claude4.5Sonnet 在代碼質(zhì)量方面有所改進(jìn)。相比之下,GPT-5在本次評(píng)估中的整體表現(xiàn)明顯落后于 Anthropic 系列模型。

研究團(tuán)隊(duì)還對(duì)“任務(wù)時(shí)間跨度”進(jìn)行了估算分析:按 SWE-bench 自動(dòng)評(píng)估結(jié)果推算,Claude4.5Sonnet 完成達(dá)到50% 成功率的任務(wù)需要約50分鐘的人類工作量,而按維護(hù)者評(píng)分計(jì)算僅約8分鐘,意味著基準(zhǔn)測(cè)試可能存在高達(dá)約7倍的能力高估。

不過研究人員同時(shí)強(qiáng)調(diào),該研究并不意味著 AI 編程代理能力存在根本性上限。通過更好的提示策略、更多人工反饋或多輪迭代,自動(dòng)評(píng)估與人工評(píng)審之間的差距仍可能縮小。實(shí)驗(yàn)環(huán)境也與真實(shí)開發(fā)流程存在差異,例如 AI 代理只有一次提交機(jī)會(huì),而人類開發(fā)者通常可以根據(jù)反饋不斷修改代碼。

總體而言,該研究指出,單純依賴基準(zhǔn)測(cè)試分?jǐn)?shù)評(píng)估 AI 編程代理的實(shí)際效用可能產(chǎn)生系統(tǒng)性偏差。隨著 AI 編碼模型快速迭代,如何構(gòu)建更接近真實(shí)開發(fā)環(huán)境的評(píng)估體系,正成為 AI 軟件工程領(lǐng)域的重要研究方向。

 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 国产伦精品一区二区三区千人斩 | www.欧美| 最近2019中文字幕大全第二页 | 欧美日韩综合网 | 男人的天堂av网站 | 免费成人av片 | 福利视频在线 | 天天看天天操 | 欧美日韩综合视频 | 99精品久久久久久 | 国产肥老妇视频 | 视频一区二区欧美 | 国产男女啪啪 | yw在线观看| 天天色天天色天天色 | 天堂在线观看av | 日本亚洲最大的色成网站www | 久久精品国产精品 | 国产精品久久视频 | 蜜臀av粉嫩av懂色av | 午夜在线播放视频 | 欧美日韩一本 | 国产精品久久久久久久9999 | 国产精品www| 欧美精品在线观看 | 天天干夜夜骑 | 中文字幕日韩av | 中文字幕一区二区三区视频 | 永久久久久久 | www.九九热| 欧美日韩一本 | 国产黄色在线播放 | 亚洲美女福利视频 | 欧美日韩高清一区二区 | 午夜免费视频 | 欧美成人精品在线 | 成人首页| 欧美a区 | 成人午夜免费影院 | 日少妇视频 | 手机免费av |