我們用 AI 做圖、修圖時,經常會遇到一些難題:想把圖中的杯子挪個位置,結果杯子變形了;想換個視角看看畫面,透視卻完全不對;想調整兩個物體的前后位置,也會出現遮擋混亂、比例失衡…… 核心問題是AI更像是在平面上“P圖”,無法理解圖像背后的三維空間結構。
近日,京東探索研究院正式開源了自研的 JoyAI-Image-Edit 圖像模型,徹底解決上述難題。這是業內首個把 “空間智能” 刻進骨子里的開源模型,讓 AI 終于能真正 “看懂” 空間、“編輯” 空間,從原來的平面修圖,升級成了三維空間重塑,而且模型的推理代碼全部開放,開發者能直接拿來做應用。
徹底解決傳統模型空間邏輯混亂難題
JoyAI-Image-Edit深度貼合真實世界空間規律,從空間位置關系、多視角一致性、相機感知到場景推理等維度全面建模,實現了相機坐標視角變換、物體空間位移旋轉、幾何結構精準控制等多項空間編輯技術突破,將空間認知能力深度融入文本與圖像生成流程,搭建了完整的空間理解數據與任務體系。
該模型打破了 AI “理解圖像” 和 “生成圖像” 的壁壘,讓 AI 不僅能生成逼真的圖像外觀,更能精準理解圖像背后的空間結構,在編輯過程中穩定保持主體形象與場景結構完整,多視角空間布局高度一致。不管是移動物體、換視角,還是調整物體間的關系,都能保持場景的幾何規律,遮擋、光影也都自然合理,不會再出現變形、錯亂的情況,徹底解決傳統模型空間邏輯混亂的行業難題。
經實驗驗證,在物體移動精度、空間一致性等空間編輯核心指標上,JoyAI-Image-Edit達到世界一流水準。
三大空間編輯范式突破,融合15類通用編輯能力
JoyAI-Image-Edit 的核心躍升,在于其攻克了此前開源模型難以逾越的空間理解難題,具備三大辨識度極高的空間編輯能力:視角變換——用戶可通過自然語言指定相機的偏航角、俯仰角及縮放程度,模型在保持場景幾何一致性的前提下生成新視角圖像;空間漫游——支持連續的視角移動,生成在空間中邏輯連貫的多視角圖像序列,類似于在三維場景中"走動";物體空間關系操控——在保持場景整體結構穩定的前提下,對特定物體進行位移、縮放等空間變換,同時確保遮擋與光影關系自然合理。
在實現空間級突破的同時,JoyAI-Image-Edit 全面兼容 15 類通用編輯能力,深度覆蓋內容創作的高頻需求。無論是物體的替換、刪除、添加,還是整體風格遷移、細節精修等操作,模型均實現了高性能覆蓋。結合頂尖的空間編輯技術,模型在長文本精準渲染、多視角一致性生成等行業高難度任務中表現卓越,真正做到了全場景、無死角的高效創作。
憑借領先的空間理解與編輯能力,JoyAI-Image-Edit模型突破場景限制,可廣泛應用于電商內容生產、創意設計制作、智能圖像處理、3D 模型重建、具身智能視覺感知等多元領域,大幅提升 AI 圖像技術在復雜空間場景中的適配性與實用性。尤其是在具身智能領域,空間理解能力是機器人“理解世界”的核心基礎,而該模型的推出,也為相關技術研發提供了關鍵的底層能力。
此次 JoyAI-Image-Edit 的開源,是京東在 AI 多模態模型領域的重要布局,更是讓 AI 圖像編輯實現了從平面到空間的大跨越。未來該模型還將持續落地更多場景,不斷探索空間智能落地價值。
在AI研發和應用領域,京東今年成果不斷。過去一個月內,京東宣布首次開源基礎大模型JoyAI-LLM Flash,打破了大模型參數內卷的困局;京東云“龍蝦”系列產品集體上線,token調用量周環比增長高達455%;京東還宣布將建成全球最大的具身數據采集中心。依托超級供應鏈優勢,京東將持續推動AI與產業深度融合,真正為產業創造價值。










