在跨端自動化領域,一場技術革新正悄然展開。兩位來自知名硬件企業(yè)的工程師張志勇和單文榜,憑借自研的Agent ZeroFlow系統(tǒng),在安卓設備、Chrome瀏覽器及PC桌面上實現(xiàn)了多模態(tài)操控能力。這一突破讓AI能夠像人類一樣觀察屏幕、執(zhí)行點擊、滑動和輸入操作,完成復雜的跨平臺任務。
當前市場上的主流方案各存局限。豆包手機通過與手機廠商深度合作獲取高權限,卻引發(fā)了應用開發(fā)者的強烈抵制;智譜的AutoGLM采用adb協(xié)議和遠程虛擬機模式,但用戶信任成本居高不下。ZeroFlow選擇的技術路徑截然不同——基于Android無障礙服務構建系統(tǒng)架構。這種設計使AI既能讀取屏幕元素位置和內容,又能模擬人類操作手勢,且無需突破應用安全機制,從原理上規(guī)避了被封禁的風險。
開發(fā)團隊透露,實際研發(fā)過程充滿挑戰(zhàn)。國內網(wǎng)頁普遍設置的反自動化機制構成主要障礙,部分按鈕的實際代碼位置與視覺呈現(xiàn)相距甚遠,傳統(tǒng)代碼解析方式難以應對。多模態(tài)技術在此展現(xiàn)出獨特優(yōu)勢,通過視覺識別可準確捕捉界面元素。工程團隊還面臨優(yōu)化截圖效率的難題,需在廣告彈窗干擾下,用最少的圖像數(shù)據(jù)實現(xiàn)精準意圖理解,同時控制模型調用成本。
在安全架構設計上,ZeroFlow采用雙重防護機制。沙箱環(huán)境將用戶密鑰等敏感信息隔離存儲,連AI系統(tǒng)自身都無法直接訪問;小模型實時監(jiān)控用戶與大模型的交互內容,對敏感信息進行脫敏處理。這種設計既保障了云端數(shù)據(jù)安全,又維持了系統(tǒng)運行效率。據(jù)測試,普通用戶的Token消耗成本可降低30%。
便捷性是該系統(tǒng)的另一大亮點。用戶只需通過瀏覽器注冊賬號,即可在對話框中直接使用服務,部署流程完全符合互聯(lián)網(wǎng)產品使用習慣。針對國產大模型的適配優(yōu)化,使提示詞長度縮減近40%,顯著提升了工具調用效率。目前系統(tǒng)已支持Kimi、DeepSeek等主流模型,覆蓋財務分析、運營流程、內容生產等多個知識工作場景。
這項技術的起源可追溯至三年前。當時張志勇團隊為提升編程效率,開發(fā)了具備上下文理解能力的代碼輔助工具。隨著大模型技術發(fā)展,他們逐漸意識到這套方法論具有更廣泛的應用價值。"當看到OpenClaw的演示時,我們意識到三年積累的技術路徑正在被全球驗證。"張志勇表示,這促使他們將研發(fā)方向從專業(yè)工具轉向通用智能體。
對于大廠競爭,開發(fā)團隊保持樂觀態(tài)度。他們認為生態(tài)隔離形成的壁壘,反而成為創(chuàng)業(yè)團隊的優(yōu)勢——跨平臺操作需求正是中小開發(fā)者的突破口。目前該項目已獲得近千萬元天使輪融資,資金將用于功能完善和市場推廣。這個由兩人組成的創(chuàng)業(yè)團隊用行動證明,在技術創(chuàng)新領域,敏捷開發(fā)有時比資源堆砌更具競爭力。











