谷歌正在推進一項新功能開發(fā),旨在讓旗下人工智能模型Gemini具備直接操控安卓手機的能力。這項被稱為“屏幕自動化”的技術(shù),目前已在谷歌應用17.4測試版中露出端倪。根據(jù)代碼解析,該功能內(nèi)部代號為“倭黑猩猩(bonobo)”,其核心是通過模擬用戶操作,在指定應用中完成諸如訂餐、預約出行等復雜任務。
技術(shù)實現(xiàn)層面,Android 16 QPR3系統(tǒng)更新已為這項功能搭建了基礎(chǔ)框架。從測試版代碼中發(fā)現(xiàn)的字符串顯示,用戶將看到“借助Gemini完成任務”的提示選項,系統(tǒng)會明確告知該功能可能存在操作失誤風險,并要求用戶對AI執(zhí)行的操作承擔最終責任。為保障安全性,用戶可隨時中斷AI操作并手動接管控制權(quán)。
隱私保護機制是該功能的重點設計方向。當Gemini與應用交互時,若用戶開啟活動記錄功能,系統(tǒng)截取的屏幕畫面將經(jīng)過脫敏處理后用于服務優(yōu)化,但明確禁止在對話界面輸入賬號密碼或支付信息。開發(fā)團隊特別提醒,涉及緊急事務或敏感數(shù)據(jù)的操作不應依賴此功能完成。
在同期測試的功能中,另一個代號為“芥末(wasabi)”的數(shù)字形象系統(tǒng)引發(fā)關(guān)注。該功能與谷歌Meet通話中使用的3D虛擬形象技術(shù)同源,允許用戶創(chuàng)建個性化數(shù)字分身。代碼中包含“形象就緒”“重新拍攝”等操作指令,并強調(diào)用戶對其數(shù)字形象擁有獨家使用權(quán),系統(tǒng)將通過生物識別等技術(shù)防止形象被盜用。
目前這些功能仍處于實驗室階段,具體上線時間尚未公布。行業(yè)觀察人士指出,屏幕自動化技術(shù)的突破可能重新定義移動端人機交互方式,但操作準確性、隱私合規(guī)性以及責任界定等問題,仍需通過持續(xù)迭代來解決。









