在AI圖像處理領域,長期存在的空間邏輯難題正迎來突破性解決方案。京東探索研究院近日宣布開源自研的JoyAI-Image-Edit圖像模型,該模型通過構建三維空間認知體系,成功解決了傳統工具在物體位移、視角轉換等操作中常見的變形、透視錯亂等問題。這項技術突破標志著AI圖像編輯從平面處理向空間重構的跨越,為電商設計、創意生產等領域帶來全新可能性。
該模型創新性地融合了空間位置建模、多視角一致性算法與場景推理技術,形成完整的三維編輯能力框架。在物體操作層面,模型可精準控制位移、旋轉等幾何變換,確保遮擋關系與光影效果自然合理;視角轉換方面,支持通過自然語言指令調整相機參數,生成符合物理規律的新視角圖像;更突破性地實現了空間漫游功能,能夠連續生成邏輯連貫的多視角序列,如同在虛擬場景中自由移動觀察。
技術驗證顯示,JoyAI-Image-Edit在物體移動精度、空間布局一致性等核心指標上達到國際領先水平。其三大核心能力構成顯著優勢:視角變換功能允許用戶自定義相機參數生成新視圖;空間漫游支持創建連貫的多角度圖像序列;物體關系操控可在保持場景結構穩定的前提下調整元素位置。這些能力與15類通用編輯功能深度整合,覆蓋從物體替換到風格遷移的全場景需求。
在應用層面,該模型展現出強大的跨領域適配性。電商行業可利用其快速生成多角度商品展示圖,創意設計領域能實現復雜場景的精準編輯,智能圖像處理領域則獲得更高效的三維重建工具。特別在具身智能領域,模型提供的空間理解能力為機器人環境感知技術研發奠定了關鍵基礎,助力智能設備更好地理解物理世界。
此次開源包含完整的推理代碼體系,開發者可直接調用核心功能進行二次開發。這是京東在AI多模態領域的又一重要布局,繼基礎大模型JoyAI-LLM Flash開源后,再次通過技術共享推動產業創新。配合近期上線的京東云"龍蝦"系列產品及全球最大具身數據采集中心建設,京東正構建起覆蓋算法、算力、數據的完整AI生態鏈,持續深化技術賦能實體經濟的戰略實踐。






