滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

字節開源GUI Agent登頂GitHub熱榜

時間：2026-02-08 18:08:03 來源：量子位編輯：快訊 IP：北京 發表評論無障礙通道

聞樂發自凹非寺

量子位 | 公眾號 QbitAI

GitHub最新熱榜榜首，來自字節。

這波自研硬核技術不是別的——

正是豆包手機的核心支撐，GUI Agent模型UI-TARS。

力壓OpenAI官方Skills，開源登頂榜首，突破26k Star！

UI-TARS的核心是個多模態AI智能體，你只要通過自然語言指令——

也就是說句人話，就能讓它自己點鼠標、敲鍵盤、拖動滾動、翻頁瀏覽，在瀏覽器和各種軟件里幫你完成一整套復雜操作。

主要包含了Agent TARS和UI-TARS-desktop兩個項目。

Agent TARS支持一鍵式開箱即用的CLI，可以在有界面的Web UI環境執行，也能在無界面的服務器環境運行；

UI-TARS-desktop則是一個桌面應用程序，主要幫你操作本地電腦和瀏覽器。

純視覺驅動

UI-TARS這種GUI Agent的核心邏輯其實就是五個字——純視覺驅動。

純視覺有啥特點呢？

從傳統RPA這類自動化工具來看，它們要想干活兒就得去扒復雜的網頁源碼、記控件編號，而且一旦這些界面稍微改一點，腳本就直接報廢了。

純視覺就是說，靠內置的視覺大模型，AI就能直接像人眼一樣觀察屏幕。

不管軟件有沒有開放API、不管界面有多復雜，只要你能看清菜單在哪、按鈕在哪，它就也能，然后幫你操作。

如果有朋友想體驗，部署起來也非常簡單，只需要三步。

第一步，檢查有沒有安裝Node.js和Chrome，沒安裝Node.js的話，要安裝一個>=22的版本。

檢查可以用如下命令：

node -v

如果沒有還沒有安裝，可以用nvm先安裝一下：

# Install Node.js LTS

nvm install --lts

# Switch to Node.js LTS

nvm use --lts

第二步，安裝Agent TARS。

最新版：

npm install @agent-tars/cli@latest -g

公測版：

npm install @agent-tars/cli@next -g

第三步，選擇模型，需要API，當前Agent TARS可兼容Seed1.5-VL、claude-3.7-sonnet和gpt-4o。

agent-tars

--provider volcengine

--model doubao-1-5-thinking-vision-pro-250428

--apiKey {apiKey}

或

agent-tars

--provider anthropic

--model claude-3-7-sonnet-latest

--apiKey {apiKey}

或

agent-tars

--provider openai

--model gpt-4o

--apiKey {apiKey}

選完模型后，出現如下界面就表示部署完成啦！

然后我們點擊上面框選的鏈接，即可打開Web用戶界面。

接下來就可以對它發！號！施！令！了。

豆包手機雖然一時成為了現象級的爆款，電腦版現在登頂了開源榜首，但這項技術其實早在一年前就開始布局了。

UI-TARS的核心目標是讓Agent真正具備感知、動作、推理、記憶四大能力。

2025年1月和清華合作開源，成為國產純視覺GUI Agent中首個在權威基準測試對標并超越GPT-4o的項目。

接著它就開始了一路狂飆進化。

初代憑借600萬高質量教程數據注入的深度思考能力，以及精準的統一動作空間，讓AI像人類一樣看懂并操作界面，在多項SOTA榜單上插旗。

短短3個月后，又迎來了UI-TARS-1.5。

讓Agent在動手前先多想幾步，通過Inference-time Scaling預判后果，尤其在GUI定位任務上刷新了行業紀錄。

到了9月，UI-TARS-2的出現徹底將能力拉滿，成為豆包手機的底層技術。

它針對數據瓶頸、多輪RL不穩、純GUI局限、環境亂七八糟四大痛點，通過“數據飛輪”讓模型和數據互相喂養進化。

不再局限于單純的點擊與滑動，而是打通了文件系統與沙盒平臺，將瀏覽器、命令行、工具調用全量整合。

幾輪迭代下來，UI-TARS已經成為最火的開源多模態Agent之一。

走“前門”的GUI Agent

說到Agent、GUI Agent，就在幾天前，理想汽車CEO李想的一條朋友圈也在科技圈引起關注。

他指出2025年最具突破性的三個現象級產品分別是Claude Code、豆包手機、Manus；

而2026年第一個月就出現了三個現象級的產品：OpenClaw、MoltBook、Chrome Gemini。

可以說，被點名的6個產品，有5個都和Agent直接相關，甚至有3個都是GUI Agent。

豆包手機：手機里的GUI Agent，直接讓AI像人一樣看屏、點擊、切換APP；

OpenClaw：電腦里的GUI Agent，可以操作應用程序、管理文件、通過通訊工具接受指令執行復雜任務；

Chrome Gemini：瀏覽器里的GUI Agent，模擬人類完成網頁跳轉、信息提取、表單填寫等操作。

這三款產品的底層邏輯完全一致，都是純視覺驅動的端側交互執行路線。

在輸入上，不讀取APP/網頁/軟件內部的空間ID、源碼、私有接口等，統一截取屏幕像素圖像作為唯一輸入，靠多模態視覺模型識別界面元素；

在執行上，不調用API完成功能，直接模擬人的交互行為進行點擊、滑動、窗口切換，和真人操作的系統入口完全一致；

在兼容邏輯上，不管目標應用是否開放API、是否老舊閉源、是否加密，只要屏幕能顯示、人能操作，它就能執行。

再說說另外兩個。

Manus是云端全自主通用Agent，不靠純視覺模擬界面操作，優先調用API與工具鏈自主拆解復雜任務，在云端沙箱完成分析、處理、生成全流程，直接交付最終成果，可以說是專注復雜任務閉環的數字員工。

MoltBook則是非執行類Agent載體，不操作界面、不調用API完成實用任務，而是讓各類Agent自主發帖、互動、產生內容，是不帶物理操作，純決策層的自主Agent行為。

可以說，這幾個產品看似各有領域，卻共同指向一個核心問題——

怎么讓AI真正“動手”幫人類干活？

GUI Agent們選擇“走前門”，直接看屏模擬操作，突破封閉生態的壁壘；

也有的靠聰明規劃和工具鏈閉環來交付成果；

甚至有的把Agent們推向自己的世界，放大AI之間的連接。

于是李想在兩天后又發了一條有意思的觀點：

原本以為Agent這類AI工具會縮小人與人之間的能力差距，實際上卻是十倍、百倍地放大了差距。

GitHub鏈接：https://github.com/bytedance/UI-TARS-desktop

更多>同類資訊

英偉達為3萬名工程師部署AI編碼工具，代碼產出量提升三倍

02-08

教科書《性能之巔》作者入職OpenAI！迷弟總裁親自歡迎

02-08

廚房新幫手登場！Figure 03機器人“絲滑”干活，盡顯自主控制魅力

02-08

性能領域“大神”Brendan Gregg入職OpenAI，為ChatGPT性能提升“沖鋒陷陣”

02-08

重慶數字資源集團攜手兩院所借綠電算力共繪AI產學研新藍圖

02-08

2025年全球半導體銷售額創新高 2026年或邁向萬億美元大關

02-08

蘋果CarPlay將開放第三方AI應用接入車內聊天機器人時代即將開啟

02-08

鄭州航空港“AI+審計”智慧平臺上線開啟審計智能化轉型新征程

02-08

性能領域“大神”Brendan Gregg入職OpenAI 助力ChatGPT突破性能瓶頸

02-08

性能領域“大神”Brendan Gregg入職OpenAI 助力ChatGPT突破性能瓶頸

02-08

四川大竹“竹大”熊貓機器人亮相成都竹原纖維量產基地開啟綠色智造新篇

作為全國竹產業強縣，大竹縣有竹林面積50萬畝，總蓄積量近150萬噸，近年來搶抓“以竹代塑”戰略機遇，構建起“三竹鼎立”現代竹產業體系：在竹原纖維領域，以四川興竹、鑫竹海等企業為龍頭的竹原纖維生態量產項目，為…

02-08

重慶數字資源集團攜手科研院所借綠電算力共筑AI產學研新生態

日前，在重慶市大數據發展局的指導下，重慶數字資源集團與重慶人工智能學院、重慶通用人工智能研究院正式簽署戰略合作協議，聚焦建設聯合實驗室、聚力推動科研攻關、協同保障算力供應、促進數據雙向賦能、推進產業項目轉化落…

02-08

巴黎香街春節巡游：中國機器人首秀，多元表演共慶中國年

她告訴記者，去年她在巴黎13區觀看了春節巡游，這種文化表達非常生動、有活力，讓法國民眾近距離感知中國傳統文化和習俗，很有意義。春節巡游為巴黎8區帶來濃厚的節日氣氛和獨特的文化體驗，進一步豐富了巴黎的多元文化生…

02-08

巴黎香街春節巡游：中國機器人首秀，中法文化交融共慶新春佳節

她告訴記者，去年她在巴黎13區觀看了春節巡游，這種文化表達非常生動、有活力，讓法國民眾近距離感知中國傳統文化和習俗，很有意義。 “在被譽為‘世界最美大道’的香榭麗舍大街上，將慶祝中國傳統節日——春節與中國創新…

02-08

OpenAI發布macOS版Codex應用：多智能體并行，開啟高效開發新體驗

IT之家 2 月 3 日消息，人工智能已然對軟件開發的方式產生顛覆性影響，如今編程中大量繁重瑣碎的工作，都由一眾智能體與子智能體完成。這款Codex 應用還搭載了多項全新功能，這些功能將幫助其達到與各類 …

02-08

點擊查看更多 +

全站最新

有色巨震后，錯殺機會凸顯？

2月6日多品牌汽車召回！沃爾沃、林肯、奧迪等車主速查車輛信息

長安人事大調整：房楠李攀換崗，深藍引力如何攜手破局新能源賽道？

鴻蒙智行問界M6動態視頻來襲，獨特小藍燈設計成最大亮點

2025文娛新篇：微博見證明星影視綜藝多元發展新態勢

鴻蒙智行問界M6動態視頻來襲，獨特小藍燈設計成焦點

熱門內容

本欄最新

全新一代理想L9：具身智能加持，以創新科技重塑旗艦SUV新標桿

全新一代理想L9：具身智能加持打造60萬內豪華SUV新標桿

比亞迪方程豹鈦7第三次OTA升級來襲，16項新增7項優化暢享智駕新體驗

固態電池真要“上車”了嗎？續航與安全雙提升，是未來還是泡沫？

2025款騰勢N7來襲！轎跑造型吸睛，科技內飾豪華，續航動力雙在線

追覓創始人再立“萬億目標” 多元化布局引關注曾遭員工質疑

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

字節開源GUI Agent登頂GitHub熱榜