滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

百度伐謀Agent 2.0二度登頂MLE-Bench，智能體工程化能力再獲權威認證

時間：2026-04-14 20:01:32 來源：天脈網編輯：快訊 IP：北京 發表評論無障礙通道

在機器學習工程領域，百度智能云推出的企業級算法自主優化智能體“伐謀Agent 2.0”再次成為焦點。這款產品近日成功登頂機器學習工程權威基準測試MLE-Bench，并刷新了該榜單的SOTA（State-of-the-Art）成績。這是繼去年10月首次奪冠后，伐謀Agent 2.0第二次在該榜單中拔得頭籌。

MLE-Bench由OpenAI主導設立，包含75個源自Kaggle真實競賽的工程任務。這些任務全面覆蓋模型訓練、數據處理、實驗管理等AI智能體全流程作業能力，旨在評估其模擬人類機器學習工程師解決實際問題的綜合素養。與常規測試不同，MLE-Bench的考核重點不在于大模型的對話或推理水平，而是通過實際工程任務檢驗智能體的獨立作業能力。每道題目需運行三次取平均分，單次完整提交的算力成本高達數萬美元。

在本次測試中，伐謀Agent 2.0在“高難度”任務中的表現尤為亮眼。在統一運行標準下，其綜合勝率顯著領先于搭載Claude-Opus-4.6等主流大模型的同類智能體。具體來看，在15道最難題目中，伐謀Agent 2.0一舉拿下9項第一。這些高難度任務往往對應現實中數字化基礎薄弱、數據質量參差的場景，例如歷史遺留的臟數據、殘缺的業務記錄、跨系統異構對接等，具有極高的工程參考價值。

從產品技術層面分析，伐謀Agent 2.0的優異表現得益于其在多個關鍵領域的系統優化。首先，增強的演化策略支持智能體在多個路徑上并行探索，并能夠適時回溯調整，從而提升問題解決的效率與準確性。其次，長程記憶機制的引入幫助智能體在長鏈條任務中保持邏輯一致性，避免因任務復雜度增加而出現邏輯斷裂。全棧AI云基礎設施的優化進一步提升了算法迭代效率，為智能體的高性能運行提供了堅實保障。

自上線以來，伐謀Agent 2.0已服務數千家企業，覆蓋零售、金融、制造、能源、交通等多個領域。以汽車制造行業為例，伐謀Agent 2.0與阿爾特太乙合作，將風阻驗證時間從10小時壓縮至數分鐘，整車研發周期平均縮短25%。這一成果不僅體現了伐謀Agent 2.0在實際工程中的高效性，也為其在更多領域的推廣應用奠定了基礎。

MLE-Bench的競爭格局并非一成不變。今年2月，創業公司Disarray提交了一個高分成績，隨后UCSD團隊的AIBuildAI也曾短暫占據榜首。然而，百度伐謀Agent 2.0在這一輪動態排名中最終脫穎而出，再次登頂。這一結果不僅反映了該領域技術迭代的快速與激烈，也凸顯了百度在機器學習工程領域的持續創新能力。

參與本次測評的智能體還包括搭載OpenAI o1、Claude等模型的方案。各家產品在數據處理效率、長任務穩定性等維度上各有優劣，形成了多元化的競爭態勢。例如，某些智能體在數據處理效率上表現突出，而另一些則在長任務穩定性方面更具優勢。這種多元化的競爭格局有助于推動整個領域的技術進步。

據悉，伐謀Agent 2.0的正式版本將于今年5月的Create 2026百度AI開發者大會上發布。與此同時，百度還開源了Famou for Science項目。該項目基于多智能體協同模式構建虛擬科研團隊，支持長線程科研任務的自動化推進，為科研領域提供了新的解決方案。

隨著智能體在工程化基準測試中屢次刷新紀錄，一個現實問題也隨之浮現：從榜單高分到大規模產業落地，中間還需要跨越哪些門檻？對于企業而言，穩定的成本收益比和可解釋的工程回報，或許是最終評判智能體價值的關鍵標準。如何在技術突破與實際應用之間找到平衡點，將是未來智能體發展的重要方向。

更多>同類資訊

馬斯克再掀波瀾！主打安全與AI的Xchat即將登場，國際市場要變天？

但不是國內就沒有這類軟件，一提到主打私密和安全的聊天，其實很多人都想到了蝙蝠。它大概率不會影響咱們國內網友的日常，但在國際市場上，老馬帶著這么龐大的流量、頂尖的AI技術和滿滿的野心沖進來，肯定要掀起一陣腥風血…

04-14

小米REDMI K90 Max現身跑分庫：天璣9500芯片加持滿血游戲體驗引期待

04-14

聯想ThinkStation PGX賦能理想汽車，PPAP文檔審核智能體開啟高效新篇章

04-14

新能源車牌“褪色”教程引關注交管部門：污損號牌屬違法

04-14

勞斯萊斯預告將推新作，純電敞篷車型或續寫奢華傳奇

04-14

馬斯克“美版微信”未上線，盜版XChat已登蘋果榜二，下載要當心

04-14

三星多款Galaxy Watch更新后耗電猛增，谷歌Play服務或為背后“推手”

04-14

高盛CEO蘇德巍關注：Anthropic新模型發現漏洞能力強，高盛加強合作與網絡安全投入

04-14

武漢千億科技華工科技：利潤狂飆卻“賬上沒錢”，A+H上市謀突圍

04-14

Sensor Tower：2026年Q1 TikTok月活破20億，CapCut、Hypic等應用表現亮眼

04-14

蘋果商業團隊AI推進加速：每日300美元預算掛鉤招聘，新版Siri將深度集成

IT之家 4 月 14 日消息，科技媒體 Wccftech 昨日（4 月 13 日）發布博文，報道稱蘋果內部正在加速推進 AI應用，商業團隊獲每日 300 美元的 Claude 預算，配額使用較低的團隊甚至…

04-14

雷軍陪同西班牙首相參觀小米科技園，首相對小米多款車型續航興趣濃厚

04-14

墨騰報告：2025東南亞電商GMV超萬億，AI助力、國牌出海成新增長極

04-14

抖音集團與紅果創服整合升級，短劇創作邁向一站式服務新階段

04-14

科大訊飛員工疑中1500萬彩票發文告別訊飛回應：若屬實真心為他高興

04-14

點擊查看更多 +

全站最新

長安第四代CS75PLUS藍鯨超擎SUV盲訂開啟，4月24日車展全球首發！

美股異動丨黃金、白銀股盤前普漲，美伊據報將重返伊斯蘭堡談判推動金銀價拉升

美股存儲芯片概念股盤前集體上漲，閃迪漲3%

美股光通信概念股盤前集體上漲，Lumentum漲超1%

龍虎榜丨九安醫療跌9.46%，深股通凈買入2.71億元，六機構凈賣出4.72億元

龍虎榜丨盈峰環境漲停，國泰海通證券武漢紫陽東路營業部凈買入2.23億元

熱門內容

本欄最新

京東攜手深藍汽車開啟新篇！深藍L06增程版獨家預訂享多重權益

科大訊飛“1500萬離職”引熱議：真偽難辨，打工人的“暴富夢”卻火了

科大訊飛回應員工中1500萬彩票離職傳聞：若真中獎，真心為他高興

科大訊飛回應員工中1500萬彩票離職傳聞：若屬實為其高興，更重為員工筑牢保障

五一合肥濱湖車展啟幕！比亞迪捷途領銜，多款新車安徽首秀等你探

汽車行業輿論戰“暗流涌動”：黑水軍難根除，車企何時跳出“影院效應”？

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

百度伐謀Agent 2.0二度登頂MLE-Bench，智能體工程化能力再獲權威認證