研究機(jī)構(gòu) METR 最新發(fā)布的一項(xiàng)研究顯示,被廣泛用于評(píng)估 AI 編程能力的基準(zhǔn)測(cè)試 SWE-bench Verified 可能顯著高估了 AI 代理在真實(shí)軟件開發(fā)環(huán)境中的表現(xiàn)。研究發(fā)現(xiàn),在基準(zhǔn)測(cè)試中被判定為“通過”的 AI 代碼解決方案中,大約一半在實(shí)際項(xiàng)目維護(hù)者審核時(shí)會(huì)被拒絕,這意味著自動(dòng)化評(píng)測(cè)結(jié)果與真實(shí)工程質(zhì)量之間存在明顯差距。
SWE-bench Verified 長期被視為 AI 輔助軟件工程的重要評(píng)估標(biāo)準(zhǔn)之一,用于測(cè)試模型是否能夠解決開源項(xiàng)目中的真實(shí)編程問題,并通過自動(dòng)化測(cè)試驗(yàn)證代碼修改是否通過項(xiàng)目測(cè)試套件。包括 Anthropic 和 OpenAI 在內(nèi)的多家 AI 公司也經(jīng)常引用這一基準(zhǔn)成績展示模型能力進(jìn)展。
在此次研究中,METR 團(tuán)隊(duì)邀請(qǐng)了維護(hù)開源項(xiàng)目 scikit-learn、Sphinx 和 pytest 的四名資深開發(fā)者,對(duì)296段 AI 生成代碼進(jìn)行人工評(píng)審。這些代碼來自五個(gè)模型生成的解決方案,包括 Claude3.5Sonnet、Claude3.7Sonnet、Claude4Opus、Claude4.5Sonnet 以及 GPT-5。結(jié)果顯示,維護(hù)者實(shí)際采納率平均比 SWE-bench 自動(dòng)評(píng)分低約24個(gè)百分點(diǎn),這一差異具有統(tǒng)計(jì)學(xué)意義。
研究還發(fā)現(xiàn),被拒絕的 AI 代碼并非主要因?yàn)轱L(fēng)格問題,而是存在更實(shí)質(zhì)性的工程缺陷。維護(hù)者將問題分為三類:代碼質(zhì)量不符合項(xiàng)目規(guī)范、對(duì)現(xiàn)有代碼結(jié)構(gòu)造成破壞,以及基本功能錯(cuò)誤。其中相當(dāng)一部分案例屬于功能性錯(cuò)誤,即使自動(dòng)化測(cè)試通過,代碼仍未真正修復(fù)問題。
在模型對(duì)比方面,研究發(fā)現(xiàn)從 Claude3.5Sonnet 升級(jí)至 Claude3.7Sonnet 雖然顯著提升了基準(zhǔn)測(cè)試通過率,但維護(hù)者標(biāo)記的功能性錯(cuò)誤數(shù)量也有所增加;從 Claude3.7到 Claude4Opus,問題則更多轉(zhuǎn)向代碼質(zhì)量層面,而 Claude4.5Sonnet 在代碼質(zhì)量方面有所改進(jìn)。相比之下,GPT-5在本次評(píng)估中的整體表現(xiàn)明顯落后于 Anthropic 系列模型。
研究團(tuán)隊(duì)還對(duì)“任務(wù)時(shí)間跨度”進(jìn)行了估算分析:按 SWE-bench 自動(dòng)評(píng)估結(jié)果推算,Claude4.5Sonnet 完成達(dá)到50% 成功率的任務(wù)需要約50分鐘的人類工作量,而按維護(hù)者評(píng)分計(jì)算僅約8分鐘,意味著基準(zhǔn)測(cè)試可能存在高達(dá)約7倍的能力高估。
不過研究人員同時(shí)強(qiáng)調(diào),該研究并不意味著 AI 編程代理能力存在根本性上限。通過更好的提示策略、更多人工反饋或多輪迭代,自動(dòng)評(píng)估與人工評(píng)審之間的差距仍可能縮小。實(shí)驗(yàn)環(huán)境也與真實(shí)開發(fā)流程存在差異,例如 AI 代理只有一次提交機(jī)會(huì),而人類開發(fā)者通常可以根據(jù)反饋不斷修改代碼。
總體而言,該研究指出,單純依賴基準(zhǔn)測(cè)試分?jǐn)?shù)評(píng)估 AI 編程代理的實(shí)際效用可能產(chǎn)生系統(tǒng)性偏差。隨著 AI 編碼模型快速迭代,如何構(gòu)建更接近真實(shí)開發(fā)環(huán)境的評(píng)估體系,正成為 AI 軟件工程領(lǐng)域的重要研究方向。











