艾倫人工智能研究所(AI2)近日發(fā)布了突破性的全開源網絡代理 MolmoWeb。與傳統(tǒng)依賴網頁底層代碼(DOM)的代理不同,MolmoWeb 僅通過讀取屏幕截圖進行決策,標志著“視覺驅動”網絡導航技術的重大飛躍。
核心技術:像人類一樣“看”網頁MolmoWeb 的運作邏輯非常直觀:它捕獲當前瀏覽器窗口的截圖,通過視覺分析決定下一步操作(如點擊、滾動、翻頁),然后執(zhí)行并重復。這種“所見即所得”的模式使其比傳統(tǒng)代理更具魯棒性,因為網頁的視覺布局通常比底層代碼更穩(wěn)定,且其決策過程對人類用戶而言完全透明、可解釋。
性能飛躍:小模型擊敗巨頭盡管 MolmoWeb 的參數規(guī)模僅為4B 和8B,但在性能表現(xiàn)上卻展現(xiàn)出“以小博大”的實力:
榜單領跑: 在 WebVoyager 測試中,8B 版本的得分高達 78.2%,不僅在開源模型中名列前茅,更逼近了 OpenAI 的專有模型 o3(79.3%)。
潛力巨大: 研究發(fā)現(xiàn),通過多次運行任務并篩選最優(yōu)結果,其成功率可進一步躍升至 94.7%。
定位精準: 在 UI 元素定位基準測試中,它甚至超越了 Anthropic 的 Claude3.7。
數據支撐:史上最大的開放數據集AI2此次不僅開源了模型權重,還貢獻了名為 MolmoWebMix 的龐大數據集。該數據集包含:
由人類志愿者完成的 3.6萬次真實瀏覽任務。
超過 220萬個 屏幕截圖-問答對。
通過 GPT-4o 驗證的自動化合成數據。實驗證明,合成數據在引導智能體尋找“最優(yōu)路徑”方面甚至優(yōu)于人類軌跡。
開源精神與未來挑戰(zhàn)目前,MolmoWeb 已在 Hugging Face 和 GitHub 上通過 Apache2.0協(xié)議完全開放。盡管在處理復雜指令、登錄驗證及法律合規(guī)(如服務條款)方面仍面臨挑戰(zhàn),但 AI2堅信,只有通過完全的透明和社區(qū)協(xié)作,才能真正對抗大型科技公司的數據壟斷。











