蘋果研究團隊近日發布了一項突破性成果——專為移動設備設計的多模態大語言模型Ferret-UI Lite。該模型參數量僅30億,卻在性能測試中展現出與參數量大24倍的服務器端模型相當甚至更優的表現,為移動端AI應用開辟了新路徑。
傳統大型模型在處理手機屏幕內容時,常因分辨率限制或圖標尺寸過小而出現識別偏差。Ferret-UI Lite通過引入"推理時裁剪"技術,在首次粗略預測后,會智能鎖定目標區域進行局部放大處理,如同人類調整視覺焦點觀察細節。這種策略顯著降低了模型對整體圖像的處理需求,使其在算力有限的設備上也能精準捕捉界面元素。
研究團隊針對移動端數據稀缺的痛點,開發了包含"任務生成器-規劃器-執行者-批評者"四模塊的合成數據系統。該系統通過模擬用戶操作場景,讓AI在虛擬環境中自主完成交互任務并修正錯誤,生成的數據集不僅規模龐大,更包含大量真實操作中可能出現的異常情況,如無響應按鈕或彈窗干擾等。實驗表明,這種訓練方式比傳統人工標注數據更能提升模型魯棒性。
在基準測試中,Ferret-UI Lite展現出優異的基礎交互能力,可準確完成點擊、滑動等短流程操作。盡管在處理需要多步驟協同的復雜任務時仍有優化空間,但其本地化運行特性已成為顯著優勢。該模型完全在設備端處理數據,無需上傳屏幕截圖至云端,在實現自動化操作的同時,有效保護了用戶隱私安全。
這項成果標志著移動端AI模型進入輕量化高效能的新階段。通過創新性的數據處理機制和架構設計,小參數量模型首次在性能上比肩大型服務器模型,為智能手機、平板電腦等設備實現更智能的界面交互提供了技術基礎。研究團隊已公開相關技術細節,供學術界和產業界進一步探索優化。











