科技領域迎來新突破,蘋果公司近期發表的一篇AI研究論文引發關注。該論文聚焦于生成式AI在App界面開發中的應用,提出了一種創新方法,使經過特定調整的Qwen3-Coder模型在UI生成能力上超越了GPT-5。
論文由蘋果UICoder團隊完成,核心目標是探索如何更高效地將生成式AI融入App開發流程。研究指出,當前主流的“人類反饋強化學習”(RLHF)在UI設計領域存在明顯局限性。傳統RLHF依賴人類對AI生成結果的簡單“點贊/點踩”或排序,這種二元評價體系無法捕捉設計背后的復雜邏輯,也無法反映設計師的實際工作流程。AI僅能感知結果的好壞,卻無法理解具體缺陷或改進方向。
為突破這一瓶頸,研究團隊邀請21位具有2至30年經驗的專業設計師參與實驗。與以往評分模式不同,設計師需通過撰寫詳細評論、繪制草圖或直接修改代碼的方式優化AI生成的界面。團隊共收集1460條深度注釋數據,并將“修改前”與“修改后”的對比樣本輸入獎勵模型。該模型通過學習界面截圖與自然語言描述,逐步掌握了人類設計師對UI美觀性與功能性的判斷標準。
實驗結果表明,基于“草圖反饋”訓練的模型表現尤為突出。令人意外的是,僅用181個草圖注釋進行微調,該模型便實現了對GPT-5的超越。研究團隊強調,這一發現證明專家級的高質量反饋可使小參數模型在特定領域展現出超越大型模型的潛力,為AI訓練提供了新思路。
研究還發現設計審美具有顯著主觀性。在單純排序任務中,研究人員與設計師的觀點一致率僅49.2%,近乎隨機選擇。但當設計師通過草圖或直接編輯表達意圖后,雙方一致率分別提升至63.6%和76.1%。數據表明,具體的視覺修改比抽象評分更能形成共識,這為AI輔助設計工具的開發指明了關鍵方向——通過可視化交互而非數值評價來優化設計流程。










