聞樂 發自 凹非寺
量子位 | 公眾號 QbitAI
GitHub最新熱榜榜首,來自字節。
這波自研硬核技術不是別的——
正是豆包手機的核心支撐,GUI Agent模型UI-TARS。
力壓OpenAI官方Skills,開源登頂榜首,突破26k Star!
UI-TARS的核心是個多模態AI智能體,你只要通過自然語言指令——
也就是說句人話,就能讓它自己點鼠標、敲鍵盤、拖動滾動、翻頁瀏覽,在瀏覽器和各種軟件里幫你完成一整套復雜操作。
主要包含了Agent TARS和UI-TARS-desktop兩個項目。
Agent TARS支持一鍵式開箱即用的CLI,可以在有界面的Web UI環境執行,也能在無界面的服務器環境運行;
UI-TARS-desktop則是一個桌面應用程序,主要幫你操作本地電腦和瀏覽器。
純視覺驅動
UI-TARS這種GUI Agent的核心邏輯其實就是五個字——純視覺驅動。
純視覺有啥特點呢?
從傳統RPA這類自動化工具來看,它們要想干活兒就得去扒復雜的網頁源碼、記控件編號,而且一旦這些界面稍微改一點,腳本就直接報廢了。
純視覺就是說,靠內置的視覺大模型,AI就能直接像人眼一樣觀察屏幕。
不管軟件有沒有開放API、不管界面有多復雜,只要你能看清菜單在哪、按鈕在哪,它就也能,然后幫你操作。
如果有朋友想體驗,部署起來也非常簡單,只需要三步。
第一步,檢查有沒有安裝Node.js和Chrome,沒安裝Node.js的話,要安裝一個>=22的版本。
檢查可以用如下命令:
node -v
如果沒有還沒有安裝,可以用nvm先安裝一下:
# Install Node.js LTS
nvm install --lts
# Switch to Node.js LTS
nvm use --lts
第二步,安裝Agent TARS。
最新版:
npm install @agent-tars/cli@latest -g
公測版:
npm install @agent-tars/cli@next -g
第三步,選擇模型,需要API,當前Agent TARS可兼容Seed1.5-VL、claude-3.7-sonnet和gpt-4o。
agent-tars
--provider volcengine
--model doubao-1-5-thinking-vision-pro-250428
--apiKey {apiKey}
或
agent-tars
--provider anthropic
--model claude-3-7-sonnet-latest
--apiKey {apiKey}
或
agent-tars
--provider openai
--model gpt-4o
--apiKey {apiKey}
選完模型后,出現如下界面就表示部署完成啦!
然后我們點擊上面框選的鏈接,即可打開Web用戶界面。
接下來就可以對它發!號!施!令!了。
豆包手機雖然一時成為了現象級的爆款,電腦版現在登頂了開源榜首,但這項技術其實早在一年前就開始布局了。
UI-TARS的核心目標是讓Agent真正具備感知、動作、推理、記憶四大能力。
2025年1月和清華合作開源,成為國產純視覺GUI Agent中首個在權威基準測試對標并超越GPT-4o的項目。
接著它就開始了一路狂飆進化。
初代憑借600萬高質量教程數據注入的深度思考能力,以及精準的統一動作空間,讓AI像人類一樣看懂并操作界面,在多項SOTA榜單上插旗。
短短3個月后,又迎來了UI-TARS-1.5。
讓Agent在動手前先多想幾步,通過Inference-time Scaling預判后果,尤其在GUI定位任務上刷新了行業紀錄。
到了9月,UI-TARS-2的出現徹底將能力拉滿,成為豆包手機的底層技術。
它針對數據瓶頸、多輪RL不穩、純GUI局限、環境亂七八糟四大痛點,通過“數據飛輪”讓模型和數據互相喂養進化。
不再局限于單純的點擊與滑動,而是打通了文件系統與沙盒平臺,將瀏覽器、命令行、工具調用全量整合。
幾輪迭代下來,UI-TARS已經成為最火的開源多模態Agent之一。
走“前門”的GUI Agent
說到Agent、GUI Agent,就在幾天前,理想汽車CEO李想的一條朋友圈也在科技圈引起關注。
他指出2025年最具突破性的三個現象級產品分別是Claude Code、豆包手機、Manus;
而2026年第一個月就出現了三個現象級的產品:OpenClaw、MoltBook、Chrome Gemini。
可以說,被點名的6個產品,有5個都和Agent直接相關,甚至有3個都是GUI Agent。
豆包手機:手機里的GUI Agent,直接讓AI像人一樣看屏、點擊、切換APP;
OpenClaw:電腦里的GUI Agent,可以操作應用程序、管理文件、通過通訊工具接受指令執行復雜任務;
Chrome Gemini:瀏覽器里的GUI Agent,模擬人類完成網頁跳轉、信息提取、表單填寫等操作。
這三款產品的底層邏輯完全一致,都是純視覺驅動的端側交互執行路線。
在輸入上,不讀取APP/網頁/軟件內部的空間ID、源碼、私有接口等,統一截取屏幕像素圖像作為唯一輸入,靠多模態視覺模型識別界面元素;
在執行上,不調用API完成功能,直接模擬人的交互行為進行點擊、滑動、窗口切換,和真人操作的系統入口完全一致;
在兼容邏輯上,不管目標應用是否開放API、是否老舊閉源、是否加密,只要屏幕能顯示、人能操作,它就能執行。
再說說另外兩個。
Manus是云端全自主通用Agent,不靠純視覺模擬界面操作,優先調用API與工具鏈自主拆解復雜任務,在云端沙箱完成分析、處理、生成全流程,直接交付最終成果,可以說是專注復雜任務閉環的數字員工。
MoltBook則是非執行類Agent載體,不操作界面、不調用API完成實用任務,而是讓各類Agent自主發帖、互動、產生內容,是不帶物理操作,純決策層的自主Agent行為。
可以說,這幾個產品看似各有領域,卻共同指向一個核心問題——
怎么讓AI真正“動手”幫人類干活?
GUI Agent們選擇“走前門”,直接看屏模擬操作,突破封閉生態的壁壘;
也有的靠聰明規劃和工具鏈閉環來交付成果;
甚至有的把Agent們推向自己的世界,放大AI之間的連接。
于是李想在兩天后又發了一條有意思的觀點:
原本以為Agent這類AI工具會縮小人與人之間的能力差距,實際上卻是十倍、百倍地放大了差距。
GitHub鏈接:https://github.com/bytedance/UI-TARS-desktop











