蘋果研究團(tuán)隊(duì)近日發(fā)布了一項(xiàng)突破性成果——專為移動(dòng)設(shè)備設(shè)計(jì)的多模態(tài)大語(yǔ)言模型Ferret-UI Lite。該模型參數(shù)量?jī)H30億,卻在性能測(cè)試中展現(xiàn)出與參數(shù)量大24倍的服務(wù)器端模型相當(dāng)甚至更優(yōu)的表現(xiàn),為移動(dòng)端AI應(yīng)用開(kāi)辟了新路徑。
傳統(tǒng)大型模型在處理手機(jī)屏幕內(nèi)容時(shí),常因分辨率限制或圖標(biāo)尺寸過(guò)小而出現(xiàn)識(shí)別偏差。Ferret-UI Lite通過(guò)引入"推理時(shí)裁剪"技術(shù),在首次粗略預(yù)測(cè)后,會(huì)智能鎖定目標(biāo)區(qū)域進(jìn)行局部放大處理,如同人類調(diào)整視覺(jué)焦點(diǎn)觀察細(xì)節(jié)。這種策略顯著降低了模型對(duì)整體圖像的處理需求,使其在算力有限的設(shè)備上也能精準(zhǔn)捕捉界面元素。
研究團(tuán)隊(duì)針對(duì)移動(dòng)端數(shù)據(jù)稀缺的痛點(diǎn),開(kāi)發(fā)了包含"任務(wù)生成器-規(guī)劃器-執(zhí)行者-批評(píng)者"四模塊的合成數(shù)據(jù)系統(tǒng)。該系統(tǒng)通過(guò)模擬用戶操作場(chǎng)景,讓AI在虛擬環(huán)境中自主完成交互任務(wù)并修正錯(cuò)誤,生成的數(shù)據(jù)集不僅規(guī)模龐大,更包含大量真實(shí)操作中可能出現(xiàn)的異常情況,如無(wú)響應(yīng)按鈕或彈窗干擾等。實(shí)驗(yàn)表明,這種訓(xùn)練方式比傳統(tǒng)人工標(biāo)注數(shù)據(jù)更能提升模型魯棒性。
在基準(zhǔn)測(cè)試中,F(xiàn)erret-UI Lite展現(xiàn)出優(yōu)異的基礎(chǔ)交互能力,可準(zhǔn)確完成點(diǎn)擊、滑動(dòng)等短流程操作。盡管在處理需要多步驟協(xié)同的復(fù)雜任務(wù)時(shí)仍有優(yōu)化空間,但其本地化運(yùn)行特性已成為顯著優(yōu)勢(shì)。該模型完全在設(shè)備端處理數(shù)據(jù),無(wú)需上傳屏幕截圖至云端,在實(shí)現(xiàn)自動(dòng)化操作的同時(shí),有效保護(hù)了用戶隱私安全。
這項(xiàng)成果標(biāo)志著移動(dòng)端AI模型進(jìn)入輕量化高效能的新階段。通過(guò)創(chuàng)新性的數(shù)據(jù)處理機(jī)制和架構(gòu)設(shè)計(jì),小參數(shù)量模型首次在性能上比肩大型服務(wù)器模型,為智能手機(jī)、平板電腦等設(shè)備實(shí)現(xiàn)更智能的界面交互提供了技術(shù)基礎(chǔ)。研究團(tuán)隊(duì)已公開(kāi)相關(guān)技術(shù)細(xì)節(jié),供學(xué)術(shù)界和產(chǎn)業(yè)界進(jìn)一步探索優(yōu)化。











