滾動資訊

當前位置：首頁 > 資訊 > 信息流 > 正文內容

微信AI團隊創新成果：POINTS-GUI-G模型實現界面精準識別與操作

時間：2026-02-10 06:48:35 來源：互聯網編輯：快訊 IP：北京 發表評論無障礙通道

微信AI團隊近日在arXiv平臺發布了一項突破性研究，其開發的POINTS-GUI-G模型實現了計算機對軟件界面的精準理解與操作。這項技術突破標志著人機交互進入新階段——計算機可像人類助手般識別按鈕位置、輸入文本內容，甚至處理復雜的專業軟件界面。研究團隊通過獨創的訓練體系，使模型在移動端、桌面端和網頁端的多場景測試中均展現出卓越性能。

與傳統依賴現成視覺模型的研究不同，該團隊選擇從基礎模型POINTS-1.5起步構建技術體系。這種"從零開始"的研發路徑雖面臨更大挑戰，卻使團隊能深度掌控每個技術環節。研究過程被設計為三個遞進階段：首先通過數據工程構建標準化訓練集，繼而優化訓練策略解決分辨率適配難題，最終通過強化學習賦予模型自主決策能力。

在數據處理環節，研究團隊攻克了多源異構數據的整合難題。面對來自不同平臺的界面截圖，團隊開發了坐標歸一化系統，將所有操作位置轉換為0-1區間的相對坐標。更創新性地引入自動質檢機制，利用界面解析工具驗證每個標注的準確性，錯誤數據會被自動剔除。為提升模型應對復雜場景的能力，研究團隊還構建了包含專業軟件界面和重疊窗口的模擬環境，這些數據占訓練集總量的30%以上。

分辨率適配技術成為提升操作精度的關鍵突破。研究顯示，訓練圖像與實際使用分辨率的差異會導致15%以上的操作失誤。團隊通過雙向優化方案破解難題：將訓練圖像分辨率提升至3072×3072像素的同時，限制使用時的圖像尺寸不超過2000×2000像素。這種創新方法在ScreenSpot-Pro測試中帶來顯著性能提升，證明高分辨率訓練與合理使用限制的結合可有效提升模型魯棒性。

強化學習框架的設計充分體現了界面操作任務的特殊性。研究團隊構建了即時反饋機制，每次操作成功即獲得1分獎勵，失敗則無獎勵。為提升訓練效率，模型會同時嘗試8種操作策略，根據成功率動態調整學習方向。課程學習策略的引入使訓練過程更具科學性，系統自動篩選成功率在0%-75%的任務，確保模型在適度挑戰中穩步提升能力。

在權威測試基準上的表現印證了技術路線的有效性。該模型在ScreenSpot-v2測試中取得95.7分，在更具挑戰性的ScreenSpot-Pro測試中以59.9分超越多個參數量更大的模型。特別是在OSWorld-G多窗口測試中，66.0分的成績證明其具備處理復雜桌面環境的能力。詳細分析顯示，數據工程貢獻了43%的基礎性能提升，視覺編碼器優化和分辨率調整分別帶來10分和8分的增益，最終強化學習將總分推至67分。

實際應用場景測試展現了模型的廣泛適應性。在CAD軟件測試中，模型能準確識別包含200余個工具項的密集菜單欄；在移動應用測試中，對滑動區域和微小按鈕的定位準確率超過94%。特別值得關注的是，該8B參數模型在性能上超越了OpenCUA-32B等大型模型，證明技術路線選擇比單純增加參數量更具戰略價值。

研究團隊已將完整模型和評估工具開源，為學術界和產業界提供重要技術資源。開源代碼包含預處理腳本、訓練配置和測試套件，開發者可快速復現研究結果。這種開放態度加速了技術擴散，已有多個研究團隊基于該框架開發醫療軟件操作助手和工業控制系統代理等應用。

界面操作精度的提升帶來多重技術啟示。研究證明，通過針對性設計訓練策略，中等規模模型也可實現卓越性能；明確的反饋機制可顯著簡化強化學習設計；漸進式課程學習能有效平衡訓練效率與模型能力。這些發現為GUI智能代理領域提供了可復制的技術范式，推動人機交互向更自然、更高效的方向發展。

更多>同類資訊

我國科研新突破：自然光下實現二氧化碳與水高效轉化清潔能源

IT之家 2 月 1日消息，據央視新聞報道，中國科學院地球環境研究所空氣凈化新技術團隊提出一種實現二氧化碳與水協同轉化的新型通用策略，相關成果于 1 月 31日在國際學術期刊《自然 · 通訊》在線發表。 …

02-10

全球最高風電塔機LW3600-240NB發布，風領新能源向300m風電混塔發起新挑戰

LW3600-240NB風電塔機是中聯重科專為超高風電項目研發的全球領先設備，其核心參數與性能特點如下：根據協議，風領新能源將采購一臺LW3600-240NB風電塔機，以進一步提升其在超高塔筒風電項目領域的…

02-10

美股三大指數集體收漲，納指漲0.9%，甲骨文漲超9%

02-10

WTI 3月原油期貨收漲1.27%，報64.36美元/桶

02-10

2/10年期美債收益率跌約1.2個基點

02-10

A股IPO動態：今日愛得科技、電科藍天及林平發展上市

02-10

港股IPO動態：今日樂欣戶外、愛芯元智上市

02-10

嫦娥六號月壤研究新突破：多項成果刷新認知，解鎖月球更多奧秘

02-10

神舟乘組太空“燒烤”樂：陳冬回味雞翅，口感獨特滋味難忘

02-10

科學家新發現：系外行星或藏“第二家園”，生命希望再添新可能

02-10

春運進行時：北京大興機場機庫內飛機工程師細致檢修護航歸途

02-10

“天關”衛星立功！首次捕捉到中等質量黑洞吞噬白矮星奇景

02-10

崇州航空航天產業對接會簽約忙成果豐碩產業鏈完整發展勢頭強勁

02-10

科學家鎖定系外行星：宜居帶內或藏生命搖籃，探索宇宙新希望

這顆潛在宜居系外行星的發現，如同一顆希望的種子，在人類探索宇宙的心田中生根發芽，預示著在未來某一天，我們或許真的能揭開生命起源的奧秘，甚至找到那個遙不可及卻又充滿吸引力的“第二家園”。最近，科學家團隊在系外行…

02-10

嫦娥六號月壤研究新突破！中國科研刷新月球認知解鎖宇宙新篇

科研人員在樣品中發現全新類型的月球南極-艾特肯盆地撞擊熔巖，并據此精準測定盆地形成于42.5億年前；揭示月背在約42億年前和28億年前均存在火山活動，且持續時間至少14億年；發現月球磁場強度在28億年前…

02-10

點擊查看更多 +

全站最新

小米YU7 GT工信部亮相！黑武士涂裝配碳陶剎車，高性能SUV新選擇來了

產學研攜手破局！小米2200MPa超強鋼量產，開啟中國汽車材料技術領跑新篇

小米YU7 GT工信部驚艷亮相！黑化設計配大寬胎，高性能SUV新選擇來了

科大訊飛婁超兩會發聲：以AI為筆，繪就重慶智慧民生“實景圖”

重慶兩會聚焦：科大訊飛婁超“帶貨”AI，賦能教育醫療文旅新體驗

智駕芯片賽道激戰正酣：黑芝麻智能憑L3L4布局與生態構建本土突圍路

熱門內容

本欄最新

當算力競賽退潮，萬億增量的錨點正轉向AI"深水區"

"高市行情"殺回來了？日股狂飆，日元危機四伏

公告精選︱源杰科技：擬投資約12.51億元建設光電通訊半導體芯片和器件研發生產基地二期項目

2月10日A股投資避雷針︱ST萃華：因涉嫌信息披露違法違規證監會對公司立案

高德打車再陷風波：管理漏洞頻現，監管提出五項整改要求

當算力競賽退潮，萬億增量的錨點正轉向AI"深水區"

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

微信AI團隊創新成果：POINTS-GUI-G模型實現界面精準識別與操作