智譜與華為攜手宣布,正式開源新一代圖像生成模型GLM-Image,這一成果標志著國產AI技術在多模態(tài)生成領域取得重要突破。該模型依托昇騰Atlas 800T A2硬件與昇思MindSpore框架,實現了從數據處理到模型訓練的全流程國產化,成為首個在國產芯片上完成端到端訓練的SOTA級多模態(tài)模型。
技術架構方面,GLM-Image創(chuàng)新性地融合自回歸與擴散解碼器技術,在保持全局指令理解能力的同時,顯著提升局部細節(jié)刻畫精度。這種設計使其能夠高效處理知識密集型場景,尤其在海報設計、PPT制作及科普圖生成等領域表現突出。實測數據顯示,該模型在CVTG-2K復雜視覺文本生成榜單與LongText-Bench長文本渲染榜單中均位列開源模型首位,漢字生成準確率達到行業(yè)領先水平。
在商業(yè)應用層面,GLM-Image展現出強大的場景適應能力。生成電商產品圖時,模型可自動保持多格畫面風格統一,確保商品主體與文字說明的精準對應;繪制漫畫分鏡時,能維持角色造型與敘事邏輯的連貫性。針對社交媒體需求,模型生成的圖文封面兼具視覺沖擊力與信息傳達效率,商業(yè)海報設計則突破傳統模板限制,實現創(chuàng)意與實用性的平衡。
開發(fā)團隊透露,GLM-Image已開放API調用服務,當前版本生成單張圖片成本控制在0.1元,后續(xù)將推出速度優(yōu)化版本。該模型的開源不僅為國產AI生態(tài)注入新動能,更驗證了全棧國產化技術路線訓練高性能多模態(tài)模型的可行性,為金融、教育、傳媒等行業(yè)提供低成本、高效率的智能化解決方案。











