過去一年,AI生成圖像與視頻領(lǐng)域的發(fā)展速度遠(yuǎn)超預(yù)期。國際市場上,GPT-Image系列不斷迭代,Nano Banana Pro在多項基準(zhǔn)測試中表現(xiàn)突出;國內(nèi)市場同樣活躍,可靈3.0、Seedance 2.0、Vidu Q3等模型相繼推出,在聲畫同步、視頻生成長度及敘事連貫性方面取得了顯著進(jìn)展。然而,盡管技術(shù)進(jìn)步迅速,AI生成的視頻在質(zhì)量穩(wěn)定性、色彩控制、長文本渲染及多人場景處理等方面仍存在諸多問題,這些問題嚴(yán)重影響了創(chuàng)作者的工作效率。
針對這些痛點,阿里巴巴近期發(fā)布了圖像生成與編輯統(tǒng)一模型Wan2.7-Image。與以往模型不同,Wan2.7-Image并未僅僅聚焦于提升畫質(zhì),而是瞄準(zhǔn)了五個關(guān)鍵的專業(yè)級控制能力:面部多樣性、色彩精準(zhǔn)控制、超長文本渲染、交互式局部編輯及多主體一致性。這一發(fā)布標(biāo)志著AI生成圖像技術(shù)正從“碰運氣”向“可控可用”邁進(jìn)。
從技術(shù)架構(gòu)上看,Wan2.7-Image采用了生成與理解統(tǒng)一的模型架構(gòu),通過共享隱空間實現(xiàn)語義映射,使文字與畫面在同一語義空間內(nèi)完成編碼與解碼。在訓(xùn)練過程中,模型引入了多模態(tài)指令及精細(xì)標(biāo)注體系,顯著提升了在長尾場景與復(fù)雜指令下的生成穩(wěn)健性。同時,基于更大規(guī)模數(shù)據(jù)及模型尺寸訓(xùn)練的Wan2.7-Image-pro版本也同步上線,進(jìn)一步提升了構(gòu)圖穩(wěn)定性與語義理解精準(zhǔn)度。
在面部多樣性方面,Wan2.7-Image的表現(xiàn)尤為出色。傳統(tǒng)AI生成圖像常面臨“AI標(biāo)準(zhǔn)臉”問題,即生成的人臉缺乏多樣性,五官比例相似,表情呆滯。Wan2.7-Image通過下鉆至“骨相”與“皮相”的微觀層級,支持對臉型、眼部特征等細(xì)微之處的全方位定制。測試中,模型成功生成了具有不同骨相與氣質(zhì)的多人合影,且面部特征還原度高,皮膚質(zhì)感自然。
色彩控制是設(shè)計師和藝術(shù)家使用AI生成圖像時的另一大難題。Wan2.7-Image首創(chuàng)了“調(diào)色盤”功能,允許用戶通過HEX色號一鍵提取或輸入?yún)⒖紙D的顏色和占比,自由調(diào)控配色方案。測試中,模型在復(fù)雜場景下成功遵循了調(diào)色盤配色方案,生成了色彩準(zhǔn)確、比例合理的圖像,展現(xiàn)了強(qiáng)大的色彩控制能力。
超長文本渲染能力是Wan2.7-Image的另一大亮點。傳統(tǒng)AI在處理長文本時,常出現(xiàn)字母變形、筆畫斷裂等問題。Wan2.7-Image支持業(yè)內(nèi)最長的3K Tokens文字輸入,覆蓋中、英等12種語言。測試中,模型成功生成了結(jié)構(gòu)清晰、排版規(guī)整的A4豎版中文科技媒體特刊內(nèi)頁,展現(xiàn)了強(qiáng)大的長文本處理能力。
交互式編輯功能則解決了AI生成圖像的局部修改難題。傳統(tǒng)AI在局部修改時,常出現(xiàn)“改一處崩全圖”的問題。Wan2.7-Image通過“精準(zhǔn)框”的交互方式,允許用戶框選要編輯的區(qū)域,實現(xiàn)精準(zhǔn)修改。測試中,模型成功完成了物體挪動、替換等復(fù)雜編輯任務(wù),且未影響其他區(qū)域,展現(xiàn)了強(qiáng)大的交互式編輯能力。
Wan2.7-Image還具備強(qiáng)大的組圖生成能力,可一口氣生成多達(dá)12張邏輯連貫的圖像序列,適用于電商、廣告等商業(yè)場景。在多主體一致性方面,模型支持最高9張圖片作為參考源,確保生成結(jié)果在視覺上高度統(tǒng)一。測試中,模型成功生成了具有不同骨相與氣質(zhì)的多人合影,且面部特征保留度高,展現(xiàn)了強(qiáng)大的多主體一致性控制能力。









