人工智能領(lǐng)域迎來(lái)新突破,一家科技公司近日為其桌面端智能體(Agent)推出兩項(xiàng)創(chuàng)新功能——Pocket(測(cè)試版)與Computer Use,推動(dòng)AI操作電腦的能力從技術(shù)演示邁向?qū)嶋H應(yīng)用場(chǎng)景。用戶現(xiàn)在可通過(guò)飛書(shū)、微信等主流即時(shí)通訊工具遠(yuǎn)程指揮Agent執(zhí)行任務(wù),同時(shí)賦予其模擬人類操作圖形界面的能力,包括查看屏幕、移動(dòng)鼠標(biāo)、敲擊鍵盤(pán)等。
此前,該公司已發(fā)布命令行工具M(jìn)MX-CLI,使Agent能在終端調(diào)用多模態(tài)能力。此次更新聚焦圖形界面交互,通過(guò)即時(shí)通訊工具構(gòu)建統(tǒng)一入口,實(shí)現(xiàn)“手機(jī)遠(yuǎn)程調(diào)度、電腦自動(dòng)執(zhí)行”的閉環(huán)。例如,用戶外出時(shí)可通過(guò)手機(jī)發(fā)送指令,讓Agent在辦公室電腦中查找文件、修改系統(tǒng)設(shè)置或操作專業(yè)軟件,任務(wù)完成后直接將結(jié)果回傳至對(duì)話窗口。
Pocket功能的核心價(jià)值在于打破空間限制。用戶無(wú)需身處電腦前,只需在即時(shí)通訊工具中喚醒Pocket并發(fā)送指令,Agent即可在指定設(shè)備上執(zhí)行任務(wù)。典型場(chǎng)景包括遠(yuǎn)程查找文件:用戶發(fā)送“查看桌面是否有2025 report的PDF并發(fā)送”的指令后,Agent會(huì)定位文件并通過(guò)對(duì)話窗口回傳,全程無(wú)需人工干預(yù)電腦。
Computer Use則賦予Agent“數(shù)字員工”的實(shí)操能力。通過(guò)屏幕截圖識(shí)別內(nèi)容、模擬鼠標(biāo)鍵盤(pán)操作,Agent可處理無(wú)命令行接口的任務(wù),如調(diào)整系統(tǒng)偏好設(shè)置、操作設(shè)計(jì)軟件或跨應(yīng)用數(shù)據(jù)搬運(yùn)。例如,用戶可要求Agent“打開(kāi)系統(tǒng)設(shè)置,將屏幕保護(hù)程序啟動(dòng)時(shí)間設(shè)為永不,隨后運(yùn)行Pocket客戶端的定時(shí)任務(wù)并截圖反饋”。演示中,Agent精準(zhǔn)完成多步操作,包括定位下拉菜單、啟動(dòng)應(yīng)用程序及任務(wù)執(zhí)行后的狀態(tài)截圖。
技術(shù)層面,該公司摒棄傳統(tǒng)“單一工具截屏定位”的粗放模式,將桌面操作拆解為四大獨(dú)立模塊:Desktop Control負(fù)責(zé)基礎(chǔ)交互(截圖、點(diǎn)擊、輸入等);Window Manager管理窗口狀態(tài)(查詢、切換、縮放等);Browser Engine處理網(wǎng)頁(yè)元素(DOM操作、導(dǎo)航等);Clipboard實(shí)現(xiàn)剪貼板讀寫(xiě)。Agent根據(jù)任務(wù)類型自動(dòng)調(diào)用最優(yōu)工具,例如切換窗口時(shí)直接調(diào)用系統(tǒng)接口而非依賴截圖定位,顯著提升操作精度。目前,Agent可調(diào)度的工具總數(shù)已超60個(gè),涵蓋即時(shí)通訊平臺(tái)、命令行工具及桌面應(yīng)用。
針對(duì)不同分辨率屏幕的適配問(wèn)題,技術(shù)團(tuán)隊(duì)采用“相對(duì)坐標(biāo)”方案:模型輸出操作位置的百分比數(shù)值,由系統(tǒng)換算為實(shí)際像素坐標(biāo);截圖則根據(jù)模型處理能力動(dòng)態(tài)縮放,避免高分屏信息過(guò)載或低分屏模糊。例如,在4K與1080p屏幕上點(diǎn)擊同一按鈕,Agent均能準(zhǔn)確計(jì)算實(shí)際坐標(biāo)并完成操作。
為確保多步任務(wù)的可靠性,每項(xiàng)操作執(zhí)行后均會(huì)觸發(fā)自動(dòng)驗(yàn)證:系統(tǒng)立即截圖并由模型判斷操作是否成功。若失敗,Agent將啟動(dòng)診斷流程,嘗試替代方案(如用鍵盤(pán)快捷鍵替代鼠標(biāo)點(diǎn)擊);若多次重試無(wú)果,則向用戶反饋具體卡點(diǎn)。安全機(jī)制方面,涉及文件刪除等敏感操作時(shí),Agent會(huì)暫停任務(wù)并通過(guò)即時(shí)通訊工具推送交互卡片(或文本指令),待用戶授權(quán)后繼續(xù)執(zhí)行。用戶也可隨時(shí)發(fā)送指令中斷任務(wù)。
隨著OpenClaw、Anthropic等企業(yè)相繼布局,AI操作電腦的能力正從實(shí)驗(yàn)室走向真實(shí)場(chǎng)景。然而,復(fù)雜界面識(shí)別、長(zhǎng)任務(wù)穩(wěn)定性及陌生軟件適配仍是行業(yè)共性挑戰(zhàn)。此次更新通過(guò)即時(shí)通訊入口降低使用門檻、模塊化工具提升精度、步驟驗(yàn)證保障可靠性,為技術(shù)落地提供了可參考的路徑。其實(shí)際效果仍需通過(guò)大規(guī)模用戶反饋進(jìn)一步驗(yàn)證。










