谷歌承諾已久的 AI 愿景正隨著的發布正式照進現實。今日,聯合宣布,基于 Gemini 的“任務自動化”功能已進入 Beta 測試階段。這一功能標志著 AI 助手從單純的“信息查詢員”轉型為具備跨應用執行能力的“數字代辦”,能夠模擬人類操作完成訂餐、打車等復雜流程。
視覺震撼:看著手機“自己用自己”與傳統的 API 對接不同,的自動化功能是在一個虛擬窗口中模擬真實的用戶操作:
智能打車:當你給出“打車去機場”的指令,會自動喚起 Uber,確認具體的航站樓(如遇多航站樓會主動詢問),并自動填入目的地。
代訂餐食:在處理“幫我點一杯咖啡和牛角包”的指令時,AI 會自主劃動屏幕尋找星巴克菜單中的特定單品(如 Flat White),甚至能像人類一樣處理復雜的滾動選擇。
安全邏輯:關鍵節點,人類掌舵為了規避自主權帶來的風險,谷歌在自動化流程中設置了嚴密的人工復核機制:
顯式操作:用戶可以實時觀看的每一步動作,并隨時通過“Take control”接管或終止自動化進程。
最后確認制:在最終提交訂單或付款前,系統會強制停在支付界面,等待用戶核實明細并手動點擊“確認”,確保每一筆交易都在受控狀態下完成
目前,該功能已優先適配外賣配送與網約車類應用。對于及后續用戶而言,手機不再僅僅是運行 App 的載體,而是一個能夠理解自然語言意圖并將其轉化為具體操作的“超級代理”。
盡管 AI 在菜單滾動和選項識別上偶爾還顯得有些“笨拙”,但這種無需 API 深度適配、直接基于 UI 交互的自動化模式,極大地拓寬了 AI 助手的應用邊界。隨著算法的迭代,我們正在告別“在 App 叢林中反復橫跳”的時代,進入“一句話完成所有瑣事”的真智能階段。











