蘋果公司與威斯康星大學麥迪遜分校近日宣布,雙方聯合研發的AI訓練框架RubiCap正式問世。該框架聚焦于優化"密集圖像描述"模型的訓練效率,通過創新機制解決了傳統方法中人工標注成本高、合成數據多樣性不足等核心問題。
作為計算機視覺領域的前沿技術,密集圖像描述技術突破了傳統圖像標注僅提供整體描述的局限。該技術能夠精準識別圖像中的局部區域,例如"窗臺上的綠植"或"街道上奔跑的寵物犬",并為每個細節生成符合語境的文字說明。這種能力在視覺語言模型訓練、文本生成圖像以及輔助工具開發等領域具有重要應用價值。
研究團隊針對現有訓練方法的缺陷,構建了新型強化學習系統。該系統首先從專業數據集中篩選5萬張圖像,調用GPT-5、Gemini 2.5 Pro等大模型生成初始描述。隨后通過Gemini 2.5 Pro分析不同模型的輸出結果,提煉出描述的共識要點與遺漏信息,形成結構化的評分標準。最終由Qwen2.5模型根據這些標準對候選描述進行質量評估,為訓練模型提供精確的改進方向。
基于該框架訓練的RubiCap系列模型包含20億、30億和70億參數三個版本。測試數據顯示,70億參數模型在盲測中表現最優,其"幻覺"錯誤率顯著低于參數量達720億的同類大模型。更引人注目的是,30億參數的輕量級模型在特定測試場景中甚至超越了70億參數版本,證明圖像描述質量與模型參數量之間不存在絕對正相關關系。
這種創新訓練方式不僅降低了數據標注成本,更通過結構化反饋機制提升了模型的學習效率。研究人員表示,該框架為開發高效、精準的視覺語言模型提供了全新范式,特別適用于需要快速部署的移動端應用場景。











