岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear旗下自媒體矩陣:

字節開源GUI Agent登頂GitHub熱榜

   時間:2026-02-08 18:08:03 來源:量子位編輯:快訊 IP:北京 發表評論無障礙通道
 

聞樂 發自 凹非寺

量子位 | 公眾號 QbitAI

GitHub最新熱榜榜首,來自字節。

這波自研硬核技術不是別的——

正是豆包手機的核心支撐,GUI Agent模型UI-TARS。

力壓OpenAI官方Skills,開源登頂榜首,突破26k Star!

UI-TARS的核心是個多模態AI智能體,你只要通過自然語言指令——

也就是說句人話,就能讓它自己點鼠標、敲鍵盤、拖動滾動、翻頁瀏覽,在瀏覽器和各種軟件里幫你完成一整套復雜操作。

主要包含了Agent TARS和UI-TARS-desktop兩個項目。

Agent TARS支持一鍵式開箱即用的CLI,可以在有界面的Web UI環境執行,也能在無界面的服務器環境運行;

UI-TARS-desktop則是一個桌面應用程序,主要幫你操作本地電腦和瀏覽器。

純視覺驅動

UI-TARS這種GUI Agent的核心邏輯其實就是五個字——純視覺驅動。

純視覺有啥特點呢?

從傳統RPA這類自動化工具來看,它們要想干活兒就得去扒復雜的網頁源碼、記控件編號,而且一旦這些界面稍微改一點,腳本就直接報廢了。

純視覺就是說,靠內置的視覺大模型,AI就能直接像人眼一樣觀察屏幕。

不管軟件有沒有開放API、不管界面有多復雜,只要你能看清菜單在哪、按鈕在哪,它就也能,然后幫你操作。

如果有朋友想體驗,部署起來也非常簡單,只需要三步。

第一步,檢查有沒有安裝Node.js和Chrome,沒安裝Node.js的話,要安裝一個>=22的版本。

檢查可以用如下命令:

node -v

如果沒有還沒有安裝,可以用nvm先安裝一下:

# Install Node.js LTS

nvm install --lts

# Switch to Node.js LTS

nvm use --lts

第二步,安裝Agent TARS。

最新版:

npm install @agent-tars/cli@latest -g

公測版:

npm install @agent-tars/cli@next -g

第三步,選擇模型,需要API,當前Agent TARS可兼容Seed1.5-VL、claude-3.7-sonnet和gpt-4o。

agent-tars

--provider volcengine

--model doubao-1-5-thinking-vision-pro-250428

--apiKey {apiKey}

agent-tars

--provider anthropic

--model claude-3-7-sonnet-latest

--apiKey {apiKey}

agent-tars

--provider openai

--model gpt-4o

--apiKey {apiKey}

選完模型后,出現如下界面就表示部署完成啦!

然后我們點擊上面框選的鏈接,即可打開Web用戶界面。

接下來就可以對它發!號!施!令!了。

豆包手機雖然一時成為了現象級的爆款,電腦版現在登頂了開源榜首,但這項技術其實早在一年前就開始布局了。

UI-TARS的核心目標是讓Agent真正具備感知、動作、推理、記憶四大能力。

2025年1月和清華合作開源,成為國產純視覺GUI Agent中首個在權威基準測試對標并超越GPT-4o的項目。

接著它就開始了一路狂飆進化。

初代憑借600萬高質量教程數據注入的深度思考能力,以及精準的統一動作空間,讓AI像人類一樣看懂并操作界面,在多項SOTA榜單上插旗。

短短3個月后,又迎來了UI-TARS-1.5。

讓Agent在動手前先多想幾步,通過Inference-time Scaling預判后果,尤其在GUI定位任務上刷新了行業紀錄。

到了9月,UI-TARS-2的出現徹底將能力拉滿,成為豆包手機的底層技術。

它針對數據瓶頸、多輪RL不穩、純GUI局限、環境亂七八糟四大痛點,通過“數據飛輪”讓模型和數據互相喂養進化。

不再局限于單純的點擊與滑動,而是打通了文件系統與沙盒平臺,將瀏覽器、命令行、工具調用全量整合。

幾輪迭代下來,UI-TARS已經成為最火的開源多模態Agent之一。

走“前門”的GUI Agent

說到Agent、GUI Agent,就在幾天前,理想汽車CEO李想的一條朋友圈也在科技圈引起關注。

他指出2025年最具突破性的三個現象級產品分別是Claude Code、豆包手機、Manus;

而2026年第一個月就出現了三個現象級的產品:OpenClaw、MoltBook、Chrome Gemini。

可以說,被點名的6個產品,有5個都和Agent直接相關,甚至有3個都是GUI Agent。

豆包手機:手機里的GUI Agent,直接讓AI像人一樣看屏、點擊、切換APP;

OpenClaw:電腦里的GUI Agent,可以操作應用程序、管理文件、通過通訊工具接受指令執行復雜任務;

Chrome Gemini:瀏覽器里的GUI Agent,模擬人類完成網頁跳轉、信息提取、表單填寫等操作。

這三款產品的底層邏輯完全一致,都是純視覺驅動的端側交互執行路線。

在輸入上,不讀取APP/網頁/軟件內部的空間ID、源碼、私有接口等,統一截取屏幕像素圖像作為唯一輸入,靠多模態視覺模型識別界面元素;

在執行上,不調用API完成功能,直接模擬人的交互行為進行點擊、滑動、窗口切換,和真人操作的系統入口完全一致;

在兼容邏輯上,不管目標應用是否開放API、是否老舊閉源、是否加密,只要屏幕能顯示、人能操作,它就能執行。

再說說另外兩個。

Manus是云端全自主通用Agent,不靠純視覺模擬界面操作,優先調用API與工具鏈自主拆解復雜任務,在云端沙箱完成分析、處理、生成全流程,直接交付最終成果,可以說是專注復雜任務閉環的數字員工。

MoltBook則是非執行類Agent載體,不操作界面、不調用API完成實用任務,而是讓各類Agent自主發帖、互動、產生內容,是不帶物理操作,純決策層的自主Agent行為。

可以說,這幾個產品看似各有領域,卻共同指向一個核心問題——

怎么讓AI真正“動手”幫人類干活?

GUI Agent們選擇“走前門”,直接看屏模擬操作,突破封閉生態的壁壘;

也有的靠聰明規劃和工具鏈閉環來交付成果;

甚至有的把Agent們推向自己的世界,放大AI之間的連接。

于是李想在兩天后又發了一條有意思的觀點:

原本以為Agent這類AI工具會縮小人與人之間的能力差距,實際上卻是十倍、百倍地放大了差距。

GitHub鏈接:https://github.com/bytedance/UI-TARS-desktop

 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 日本黄色录象 | 久久影院一区二区 | 国产午夜影院 | 99热这| 久久亚洲精品小早川怜子66 | 中文字幕视频一区二区 | 亚洲精品婷婷 | 午夜一级大片 | 日韩亚洲一区二区三区 | 免费国产网站 | 在线中文视频 | 一区二区三区在线免费观看视频 | 国产剧情自拍 | 国产在线视频网 | 深爱开心激情 | 国产一区二区三区久久 | 国产成人精品免费视频 | 日本三区视频 | 狠狠操狠狠 | 欧美毛片视频 | 91免费精品视频 | 亚洲第一中文字幕 | 欧美爱爱爱 | 一区日韩 | 蜜桃一二三区 | 亚洲人天堂| 人人干网站 | 超碰99在线观看 | 国产网址在线观看 | 国产久操视频 | 成人网在线免费观看 | 18av视频| 四虎久久| 波多野结衣一区二区三区在线观看 | 欧洲在线观看 | 久久国产成人 | 日本中文字幕免费在线观看 | 日韩综合在线视频 | 国内一区二区 | 在线看亚洲 | 第一福利在线 |