在機器學習工程領域,百度智能云推出的企業級算法自主優化智能體“伐謀Agent 2.0”再次成為焦點。這款產品近日成功登頂機器學習工程權威基準測試MLE-Bench,并刷新了該榜單的SOTA(State-of-the-Art)成績。這是繼去年10月首次奪冠后,伐謀Agent 2.0第二次在該榜單中拔得頭籌。
MLE-Bench由OpenAI主導設立,包含75個源自Kaggle真實競賽的工程任務。這些任務全面覆蓋模型訓練、數據處理、實驗管理等AI智能體全流程作業能力,旨在評估其模擬人類機器學習工程師解決實際問題的綜合素養。與常規測試不同,MLE-Bench的考核重點不在于大模型的對話或推理水平,而是通過實際工程任務檢驗智能體的獨立作業能力。每道題目需運行三次取平均分,單次完整提交的算力成本高達數萬美元。
在本次測試中,伐謀Agent 2.0在“高難度”任務中的表現尤為亮眼。在統一運行標準下,其綜合勝率顯著領先于搭載Claude-Opus-4.6等主流大模型的同類智能體。具體來看,在15道最難題目中,伐謀Agent 2.0一舉拿下9項第一。這些高難度任務往往對應現實中數字化基礎薄弱、數據質量參差的場景,例如歷史遺留的臟數據、殘缺的業務記錄、跨系統異構對接等,具有極高的工程參考價值。
從產品技術層面分析,伐謀Agent 2.0的優異表現得益于其在多個關鍵領域的系統優化。首先,增強的演化策略支持智能體在多個路徑上并行探索,并能夠適時回溯調整,從而提升問題解決的效率與準確性。其次,長程記憶機制的引入幫助智能體在長鏈條任務中保持邏輯一致性,避免因任務復雜度增加而出現邏輯斷裂。全棧AI云基礎設施的優化進一步提升了算法迭代效率,為智能體的高性能運行提供了堅實保障。
自上線以來,伐謀Agent 2.0已服務數千家企業,覆蓋零售、金融、制造、能源、交通等多個領域。以汽車制造行業為例,伐謀Agent 2.0與阿爾特太乙合作,將風阻驗證時間從10小時壓縮至數分鐘,整車研發周期平均縮短25%。這一成果不僅體現了伐謀Agent 2.0在實際工程中的高效性,也為其在更多領域的推廣應用奠定了基礎。
MLE-Bench的競爭格局并非一成不變。今年2月,創業公司Disarray提交了一個高分成績,隨后UCSD團隊的AIBuildAI也曾短暫占據榜首。然而,百度伐謀Agent 2.0在這一輪動態排名中最終脫穎而出,再次登頂。這一結果不僅反映了該領域技術迭代的快速與激烈,也凸顯了百度在機器學習工程領域的持續創新能力。
參與本次測評的智能體還包括搭載OpenAI o1、Claude等模型的方案。各家產品在數據處理效率、長任務穩定性等維度上各有優劣,形成了多元化的競爭態勢。例如,某些智能體在數據處理效率上表現突出,而另一些則在長任務穩定性方面更具優勢。這種多元化的競爭格局有助于推動整個領域的技術進步。
據悉,伐謀Agent 2.0的正式版本將于今年5月的Create 2026百度AI開發者大會上發布。與此同時,百度還開源了Famou for Science項目。該項目基于多智能體協同模式構建虛擬科研團隊,支持長線程科研任務的自動化推進,為科研領域提供了新的解決方案。
隨著智能體在工程化基準測試中屢次刷新紀錄,一個現實問題也隨之浮現:從榜單高分到大規模產業落地,中間還需要跨越哪些門檻?對于企業而言,穩定的成本收益比和可解釋的工程回報,或許是最終評判智能體價值的關鍵標準。如何在技術突破與實際應用之間找到平衡點,將是未來智能體發展的重要方向。












