當人們還在討論AI能否在虛擬世界中完成復雜任務時,一款名為Mano-P 1.0的智能體模型已經突破了圖形界面的操作邊界,甚至能代替人類完成打麻將這樣的娛樂活動。這款由明略科技自主研發的通用GUI智能體模型,不僅在13個多模態基準測試中登頂全球榜首,更通過本地化部署和純視覺交互方案,重新定義了AI與物理世界的交互方式。
在權威測試平臺OSWorld上,Mano-P 1.0以58.2%的任務成功率領先第二名13.2個百分點,成為首個超越專用模型性能的720億參數級智能體。更令人矚目的是,該模型在WebRetriever Protocol I測試中以41.7分超越Gemini 2.5 Pro和Claude 4.5等千億級通用大模型,展現出專用模型在特定領域的獨特優勢。這些成績的取得,源于其獨創的Text?Action雙向自增強學習框架,通過自然語言與操作動作的循環一致性訓練,使模型同時具備界面理解和自主決策能力。
與傳統依賴云端API的方案不同,Mano-P 1.0采用純本地化運行架構,所有推理過程均在設備端完成。在搭載M4芯片的Mac設備上,其40億參數的量化模型可實現每秒476個token的預填充速度,峰值內存占用僅4.3GB。這種設計不僅解決了數據隱私泄露風險,更使模型在無網絡環境下仍能保持完整功能。測試數據顯示,在涉及網頁操作和專業剪輯軟件的混合工作流中,該模型能自主完成從視頻生成到二次評測的全流程自動化任務。
開源策略的差異化實施是Mano-P項目的另一大亮點。項目團隊采用三階段漸進式開源方案:首先開放具備開箱即用特性的CLI工具和Agent插件,使開發者能快速構建自動化工作流;隨后開源本地化模型和SDK組件,滿足高安全性場景的部署需求;最終公開訓練方法論,包括視覺Token剪枝技術和強化學習框架等核心專利。這種分層開放策略既保護了技術創新成果,又為不同層次的開發者提供了靈活的選擇空間。
在技術實現層面,Mano-P通過三項關鍵突破解決了端側部署難題。其獨創的GSPruning視覺剪枝技術,通過保留全局空間錨點的方式將視覺Token保留率壓縮至12.57%,在維持任務成功率的同時使吞吐量提升2-3倍。雙向強化學習框架則突破傳統單向訓練模式,使模型能同時理解自然語言指令和界面元素語義。這些創新使得模型在有限算力下仍能保持高效推理能力,為個性化AI的落地提供了技術保障。
項目首席科學家趙晨旭將Mano-P的"P"定義為Personalized(個性化)的縮寫,這揭示了模型研發的核心愿景。區別于追求通用能力的AGI路線,該模型更注重將個體經驗轉化為決策參數。以麻將場景為例,通用AI會選擇理論最優解,而個性化AI則能模擬用戶特有的記牌習慣和杠牌策略。這種設計理念在軟件測試領域已展現出應用潛力,模型可參照PRD文檔自動完成端到端GUI測試,形成"開發-測試-修復"的完整閉環。
隨著720億參數完整模型和40億參數端側模型的同步開源,開發者已能構建覆蓋研究驗證到生產落地的完整技術棧。在Apache 2.0協議框架下,項目提供的三種接入形態——命令行工具、Agent插件和Python SDK,分別滿足了快速體驗、深度集成和自主調度的不同需求。這種開放生態的建設,正在推動GUI自動化領域從瀏覽器協議依賴向跨平臺通用方案的轉型。











