京東探索研究院近日宣布,正式開源其自主研發(fā)的JoyAI-Image-Edit圖像編輯模型,為AI圖像處理領(lǐng)域帶來突破性進(jìn)展。該模型突破傳統(tǒng)技術(shù)局限,首次實(shí)現(xiàn)了對圖像三維空間結(jié)構(gòu)的深度解析,在空間感知與編輯能力方面達(dá)到國際領(lǐng)先水平,有效解決了長期困擾行業(yè)的空間邏輯混亂問題。
傳統(tǒng)AI圖像處理工具在應(yīng)對復(fù)雜空間操作時存在明顯短板:移動物體易導(dǎo)致形變扭曲,視角轉(zhuǎn)換常出現(xiàn)透視錯誤,調(diào)整物體層次關(guān)系時遮擋關(guān)系混亂。這些問題的根源在于現(xiàn)有技術(shù)僅停留在二維平面處理層面,缺乏對真實(shí)三維空間的理解能力。京東研發(fā)團(tuán)隊(duì)通過將空間智能算法深度融入模型底層架構(gòu),使系統(tǒng)能夠準(zhǔn)確捕捉圖像背后的空間規(guī)律,實(shí)現(xiàn)與物理世界高度契合的智能編輯。
該模型展現(xiàn)出三大核心空間編輯能力:視角變換功能可通過自然語言指令調(diào)整相機(jī)角度,生成符合物理規(guī)律的新視角圖像;空間漫游功能支持連續(xù)視角移動,自動生成連貫的多視角畫面序列;物體空間關(guān)系操控功能則能精準(zhǔn)調(diào)整物體位置、大小及遮擋關(guān)系,保持場景幾何結(jié)構(gòu)完整性。在光影處理方面,系統(tǒng)可自動匹配環(huán)境光源,確保添加或移動物體后的光照效果自然協(xié)調(diào)。
除空間編輯能力外,模型還整合了15類通用圖像處理功能,涵蓋物體替換刪除、藝術(shù)風(fēng)格遷移、長文本圖像生成等高頻需求。測試數(shù)據(jù)顯示,在電商場景的商品展示圖生成任務(wù)中,該模型可將制作效率提升40%,同時降低60%的返工率。在3D模型重建領(lǐng)域,通過多視角圖像生成技術(shù),可將重建時間從傳統(tǒng)方法的數(shù)小時縮短至分鐘級。
具身智能領(lǐng)域成為該技術(shù)的重要應(yīng)用方向。通過為機(jī)器人提供空間感知底層能力,模型可幫助智能設(shè)備更準(zhǔn)確理解物理環(huán)境,實(shí)現(xiàn)更自然的交互操作。在倉儲物流場景中,搭載該技術(shù)的機(jī)器人能夠精準(zhǔn)識別貨物空間位置,優(yōu)化堆疊擺放方案;在家庭服務(wù)場景,可支持機(jī)器人理解家具布局,規(guī)劃高效清潔路徑。
此次開源是京東近期AI戰(zhàn)略布局的重要環(huán)節(jié)。繼基礎(chǔ)大模型開源后,平臺AI產(chǎn)品調(diào)用量呈現(xiàn)指數(shù)級增長,日均處理請求突破億次。企業(yè)同步推進(jìn)的全球最大具身數(shù)據(jù)采集中心項(xiàng)目,已與20余家制造業(yè)企業(yè)建立合作,計(jì)劃三年內(nèi)構(gòu)建覆蓋工業(yè)、物流、服務(wù)等多場景的萬億級訓(xùn)練數(shù)據(jù)集,持續(xù)推動AI技術(shù)與實(shí)體經(jīng)濟(jì)的深度融合。











