浙江大學聯合南開大學、香港中文大學、上海交通大學及vivo AI實驗室,共同完成了一項針對手機AI助手記憶能力的研究,相關成果已通過論文形式公開,論文編號為arXiv:2602.06075。這項研究指出,當前智能助手在跨應用信息記憶和長期學習方面存在明顯短板,導致用戶在實際使用中頻繁遇到信息丟失、重復犯錯等問題。
研究團隊發現,現有評測體系對AI助手記憶能力的考察嚴重不足。在主流基準測試中,涉及記憶力的任務占比僅5.2%至11.8%,且完全未評估長期學習能力。這種評測方式如同只測試學生的計算能力而忽略記憶力,無法全面反映智能助手的實際表現。為填補這一空白,團隊開發了名為MemGUI-Bench的全新評測框架,包含128道專門設計的記憶挑戰題,覆蓋購物、導航、筆記等26個日常應用場景。
這套評測體系通過"鏡像題目"設計檢驗長期學習效果。每對題目在應用組合和認知需求上相似,但具體要求不同。例如,一道題目要求助手先在購房應用中查找公寓信息并記住地址和租金,再到搜索引擎查找公司地址,最后用地圖應用計算通勤時間并記錄結果;其鏡像題目則可能要求比較不同區域的租金水平。這種設計使得助手在完成第一道題目時積累的經驗,理論上應在處理第二道類似題目時發揮作用。
為確保評測公平性,研究團隊開發了"快照式"評測框架。該系統能在每次測試前將手機環境恢復至完全相同的初始狀態,并支持多次嘗試評測。這使得AI助手有機會從失敗中學習,而這一功能在以往評測中完全缺失。統計顯示,128道題目中89.8%涉及跨應用信息記憶,平均每題需要36.2個操作步驟,其中78.1%的題目要求在多個應用間傳遞信息。
針對記憶任務的復雜性,研究團隊設計了三階段漸進式評分系統。第一階段通過快速瀏覽任務最后三張截圖和基本操作記錄進行初步判斷,可處理約60%的明確成功案例;第二階段啟動步驟描述員生成詳細文字說明,并由語義判斷員綜合分析,對于記憶失敗情況還會計算信息保持率;第三階段采用針對性視覺驗證,根據第二階段判斷員的指示精準提供相關截圖進行最終確認。這種評分方式在準確性上達到93.1%-99.0%,同時將評測成本降低60%以上。
對11個主流AI助手的測試結果顯示,即使是表現最好的M3A助手,在單次嘗試測試中成功率也僅32.8%。當任務從單應用升級到四應用交叉時,頂級助手的成功率普遍下降16-40個百分點。例如,Agent-S2在AndroidWorld基準上能達到54.3%的成功率,但在記憶密集型任務中僅27.3%,下降27個百分點;GUI-Owl-7B的表現差距更大,從66.4%暴跌至6.2%,降幅達60.2個百分點。
記憶消融實驗證實了記憶機制的重要性。移除M3A的記憶代理后,其成功率從32.5%暴跌至2.5%,信息保持率直接歸零;Agent-S2移除長期記憶后,多次嘗試成功率從45.0%下降到25.0%,失敗恢復率從15.5%降到9.1%。研究還發現,長上下文能力能顯著提升記憶表現。當M3A使用更長的對話歷史時,成功率從32.8%提升至51.6%,提升幅度達18.8個百分點。
通過對1265次任務執行的詳細分析,研究團隊識別出五種典型記憶失敗模式。部分記憶幻覺占非超時失敗的主要比例,表現為記住部分信息但遺漏其他關鍵內容;過程記憶幻覺是最普遍的失敗模式,助手在執行中途完全忘記最終目標;輸出記憶幻覺則表現為操作流程正確但最終輸出遺漏關鍵信息;知識缺陷反映助手缺乏完成任務所需的基礎知識;意圖誤解則是助手對任務要求理解錯誤。統計分析顯示,記憶相關幻覺占所有非超時失敗的58.9%。
基于這些發現,研究團隊提出了五項改進建議。開發多粒度記憶緩沖區,將不同類型信息分類存儲以避免干擾;實施層次化任務分解,將復雜任務拆解為子任務并持續追蹤總體進度;戰略性利用長上下文,對信息進行重要性排序并壓縮冗余內容;建立專門的長期記憶機制,記錄成功操作模式和失敗教訓;開發混合式架構,結合框架式助手和端到端模型的優勢,根據任務復雜度動態選擇處理方式。
這項研究不僅為AI助手行業建立了首個專門針對記憶能力的評測基準,還提供了明確的改進路徑。研究團隊已承諾將所有代碼、基準測試和評估結果完全開源,并持續維護更新。隨著更多研究者和開發者基于這個基準進行優化,具備強大記憶能力的AI助手有望在未來成為現實,為用戶提供更加智能和實用的交互體驗。










