阿里巴巴今日正式推出新一代圖像生成基礎模型Qwen-Image 2.0,這款模型在長指令處理、文字渲染精度及推理效率方面實現突破性進展。與前代200億參數規模相比,新模型采用更輕量化架構,在保持2K分辨率輸出的同時將參數規模壓縮至原有十分之一,推理速度提升近3倍。
在核心能力升級方面,Qwen-Image 2.0突破性地支持千token級超長指令輸入,能夠精準還原包含近千中英文字詞的復雜排版要求。測試顯示,當輸入888個token的提示詞時,模型可完整呈現字體樣式、字號大小、圖文混排等細節,文字錯誤率較前代降低82%。特別在《蘭亭集序》全文渲染測試中,模型在保持山水畫面完整性的同時,成功呈現98%以上的漢字結構,僅個別筆畫存在微小瑕疵。
針對多場景生成需求,新模型實現單次生成24格連貫漫畫的能力。在醫療流程圖、電商商品圖等實際應用測試中,模型展現出強大的主體一致性保持能力,生成的20格分鏡漫畫中人物特征、畫風風格保持高度統一。相較于谷歌Nano Banana Pro和字節Seedream 5.0 Preview,Qwen-Image 2.0在復雜圖文編排任務中展現出顯著優勢。
在圖像真實感優化方面,研發團隊通過改進光影渲染算法,使生成圖像的色彩飽和度降低37%,更接近真實攝影效果。在"倒置水晶城市"等超現實場景測試中,雖然與谷歌模型相比在云層細節處理上仍有差距,但較前代產品已消除80%以上的AI生成痕跡,畫面質感獲得顯著提升。
技術架構創新方面,模型采用改進型VAE編碼器,將小尺寸文字的信息保留率提升至92%,有效解決傳統模型在文字密集區域的模糊問題。通過將生成與編輯能力整合至統一架構,模型在"照片題詩"等跨模態任務中展現出獨特優勢,文字生成準確率較分離式架構提升41%。
在產業應用層面,Qwen-Image 2.0已與電商、醫療、教育等領域達成合作意向。服裝企業可利用其實現模特換裝、屬性修改等自動化操作,醫療機構能通過流程圖生成功能簡化就診指引。該模型現已在阿里云百煉平臺開放API邀測,千問App也將在本月內完成功能部署。
研發團隊透露,下一代模型將重點攻克多圖層編輯技術,通過解耦圖像元素實現更精細的局部修改。這項突破將使設計師能夠分別調整AI生成的不同圖層,或融合多個模型的專長優勢,為專業創作領域提供更靈活的生產工具。











