阿里巴巴近日正式推出新一代圖像生成與編輯模型Qwen-Image-2.0,其核心能力被概括為“準多齊美真”五大特點。在發布會上,千問視覺生成項目負責人吳晨飛通過線上演示展示了該模型在文字渲染、指令響應、排版設計等方面的突破性表現。
演示環節中,Qwen-Image-2.0成功生成了包含《蘭亭集序》全文的圖像作品,不僅精準還原了王羲之小楷的書法特征,更在人物場景構建上保持了高度協調性。該模型支持單次輸出1K tokens的文字內容,在漢字結構處理和古文排版方面展現出顯著優勢,解決了傳統圖像生成模型在復雜文本呈現時的失真問題。
在專業評測領域,Qwen-Image-2.0以1029分的成績位列AI Arena文生圖榜單第三名,超越了Seedream4.5和Flux2-Max等主流模型,僅落后于谷歌Nano Banana Pro和GPT Image1.5。這一成績印證了其作為千問大模型圖像生成底座的實力,標志著國產AI在多模態領域的技術積累已達到國際先進水平。
值得關注的是,就在阿里巴巴發布新模型的同日,字節跳動宣布將其圖像生成模型Seedream升級至5.0版本。兩大科技巨頭在生成式AI領域的同步發力,預示著圖像生成賽道將迎來更激烈的技術競爭。業內人士分析,隨著模型參數規模和訓練數據的持續擴大,未來圖像生成技術的比拼將聚焦于細節真實度、文化理解深度和場景適配能力等維度。











