在AI圖像處理領(lǐng)域,傳統(tǒng)模型長(zhǎng)期面臨空間邏輯混亂的瓶頸:當(dāng)用戶嘗試移動(dòng)畫面中的杯子時(shí),物體可能發(fā)生扭曲變形;調(diào)整視角時(shí)透視關(guān)系完全失真;改變物體前后位置時(shí)出現(xiàn)遮擋錯(cuò)亂。這些問(wèn)題的根源在于,現(xiàn)有模型本質(zhì)上是在二維平面上進(jìn)行圖像編輯,無(wú)法理解三維空間中的幾何規(guī)律與物理關(guān)系。近日,京東探索研究院推出的JoyAI-Image-Edit開(kāi)源模型,通過(guò)將空間智能深度融入圖像生成流程,為行業(yè)帶來(lái)了突破性解決方案。
該模型創(chuàng)新性地構(gòu)建了完整的空間理解體系,從相機(jī)坐標(biāo)系變換、物體空間位移到幾何結(jié)構(gòu)控制,實(shí)現(xiàn)了12項(xiàng)核心空間編輯技術(shù)的突破。通過(guò)深度建模真實(shí)世界的空間規(guī)律,模型能夠精準(zhǔn)解析物體間的位置關(guān)系、多視角一致性以及場(chǎng)景光照條件。實(shí)驗(yàn)數(shù)據(jù)顯示,在物體移動(dòng)精度和空間一致性等關(guān)鍵指標(biāo)上,該模型已達(dá)到國(guó)際領(lǐng)先水平,徹底解決了傳統(tǒng)模型在三維空間編輯中的幾何失真問(wèn)題。
三大核心能力構(gòu)成了模型的技術(shù)壁壘:視角變換功能支持用戶通過(guò)自然語(yǔ)言精確控制相機(jī)參數(shù),在保持場(chǎng)景幾何結(jié)構(gòu)的前提下生成新視角圖像;空間漫游技術(shù)可實(shí)現(xiàn)連續(xù)視角移動(dòng),生成邏輯連貫的多視角序列;物體空間關(guān)系操控能在保持場(chǎng)景整體穩(wěn)定的前提下,對(duì)特定物體進(jìn)行位移、旋轉(zhuǎn)等操作,同時(shí)自動(dòng)調(diào)整遮擋關(guān)系與光影效果。這些能力使模型能夠穩(wěn)定處理物體移動(dòng)、視角切換等復(fù)雜操作,確保編輯后的圖像符合物理世界的空間邏輯。
在通用編輯能力方面,模型兼容15類高頻創(chuàng)作需求,包括物體替換、風(fēng)格遷移、細(xì)節(jié)精修等。通過(guò)將空間智能與內(nèi)容生成深度融合,模型在長(zhǎng)文本渲染、多視角一致性等高難度任務(wù)中表現(xiàn)出色。例如在電商場(chǎng)景中,商家可快速調(diào)整商品展示角度而無(wú)需重新拍攝;在創(chuàng)意設(shè)計(jì)領(lǐng)域,設(shè)計(jì)師能自由重構(gòu)三維場(chǎng)景而不破壞空間關(guān)系;在3D重建領(lǐng)域,模型可為機(jī)器人視覺(jué)系統(tǒng)提供精準(zhǔn)的空間感知能力。
作為業(yè)內(nèi)首個(gè)開(kāi)源的空間智能圖像模型,JoyAI-Image-Edit的推理代碼已完全開(kāi)放,開(kāi)發(fā)者可直接調(diào)用其核心功能進(jìn)行二次開(kāi)發(fā)。這一舉措不僅降低了空間編輯技術(shù)的應(yīng)用門檻,更為AI與產(chǎn)業(yè)融合提供了新的可能性。在具身智能領(lǐng)域,該模型的空間理解能力可為機(jī)器人環(huán)境感知提供關(guān)鍵技術(shù)支持;在智能圖像處理領(lǐng)域,其三維編輯能力將推動(dòng)自動(dòng)化內(nèi)容生產(chǎn)進(jìn)入新階段。
京東近期在AI領(lǐng)域持續(xù)發(fā)力:基礎(chǔ)大模型JoyAI-LLM Flash的開(kāi)源打破了參數(shù)競(jìng)賽困局;云服務(wù)"龍蝦"系列產(chǎn)品上線后token調(diào)用量周環(huán)比增長(zhǎng)455%;全球最大具身數(shù)據(jù)采集中心的建設(shè)正在推進(jìn)。這些布局彰顯了京東以技術(shù)驅(qū)動(dòng)產(chǎn)業(yè)升級(jí)的戰(zhàn)略方向,通過(guò)將空間智能等前沿能力與供應(yīng)鏈場(chǎng)景深度結(jié)合,正在重塑AI技術(shù)的商業(yè)價(jià)值實(shí)現(xiàn)路徑。











