阿里云通義今日宣布,正式開(kāi)源推出新一代圖像生成基座模型Z-Image,該模型以60億參數(shù)規(guī)模構(gòu)建非蒸餾架構(gòu),完整保留全量權(quán)重分布,為AI藝術(shù)創(chuàng)作領(lǐng)域提供全新技術(shù)底座。通過(guò)原生支持的CFG(Classifier-Free Guidance)引導(dǎo)機(jī)制,模型可無(wú)縫兼容LoRA微調(diào)、ControlNet條件控制等前沿技術(shù),滿足專業(yè)開(kāi)發(fā)者對(duì)定制化訓(xùn)練的需求。
在風(fēng)格表現(xiàn)力方面,Z-Image突破傳統(tǒng)模型對(duì)寫(xiě)實(shí)風(fēng)格的過(guò)度依賴,構(gòu)建了多維度的藝術(shù)表達(dá)能力。無(wú)論是追求極致光影的攝影級(jí)真實(shí)感,還是需要強(qiáng)烈情緒張力的動(dòng)漫數(shù)字藝術(shù),模型均能精準(zhǔn)捕捉風(fēng)格特征并完成細(xì)節(jié)重構(gòu)。這種突破得益于其創(chuàng)新的特征解耦架構(gòu),使得不同藝術(shù)流派的視覺(jué)元素可在潛在空間實(shí)現(xiàn)獨(dú)立編碼與重組。
針對(duì)AI生成內(nèi)容常見(jiàn)的同質(zhì)化問(wèn)題,研發(fā)團(tuán)隊(duì)實(shí)施了三項(xiàng)核心優(yōu)化:通過(guò)改進(jìn)采樣空間分布算法,確保單圖生成的人物面部特征與構(gòu)圖元素保持顯著差異;在多人場(chǎng)景中引入特征解耦機(jī)制,有效避免"AI大眾臉"現(xiàn)象;優(yōu)化負(fù)向提示詞響應(yīng)系統(tǒng),使Negative Prompt能夠精準(zhǔn)過(guò)濾畫(huà)面瑕疵,實(shí)現(xiàn)從構(gòu)圖框架到光影質(zhì)感的精細(xì)化控制。這些技術(shù)升級(jí)使模型在保持創(chuàng)作自由度的同時(shí),顯著提升輸出內(nèi)容的多樣性。
技術(shù)文檔顯示,Z-Image的非蒸餾架構(gòu)設(shè)計(jì)具有顯著優(yōu)勢(shì)。相比傳統(tǒng)蒸餾模型,其完整保留的權(quán)重分布為二次開(kāi)發(fā)提供了更大空間,開(kāi)發(fā)者可直接在原始參數(shù)空間進(jìn)行微調(diào),避免信息壓縮帶來(lái)的性能損失。這種設(shè)計(jì)特別適合需要精細(xì)控制生成結(jié)果的商業(yè)應(yīng)用場(chǎng)景,如品牌視覺(jué)設(shè)計(jì)、游戲資產(chǎn)制作等領(lǐng)域。
目前,該模型已在開(kāi)源社區(qū)全面開(kāi)放,提供完整的訓(xùn)練代碼與預(yù)訓(xùn)練權(quán)重。開(kāi)發(fā)文檔詳細(xì)說(shuō)明了模型架構(gòu)、訓(xùn)練方法及微調(diào)指南,支持研究者基于Z-Image開(kāi)展跨模態(tài)生成、風(fēng)格遷移等前沿探索。隨著社區(qū)生態(tài)的逐步完善,預(yù)計(jì)將涌現(xiàn)出更多創(chuàng)新應(yīng)用,推動(dòng)AI藝術(shù)創(chuàng)作向?qū)I(yè)化、精細(xì)化方向發(fā)展。










