近日,人工智能領域傳來一則重磅消息:由智譜與華為攜手打造的開源圖像生成模型GLM-Image,在發布后不到24小時內便登頂全球知名AI開源社區Hugging Face的榜單首位。這一突破標志著國產AI模型在國際競爭中首次實現端到端自主研發能力的領先,其訓練全程完全依托國產芯片完成,為行業樹立了新的標桿。
據技術團隊介紹,GLM-Image的研發突破了傳統技術路徑的限制。該模型基于昇騰Atlas 800T A2設備與昇思MindSpore AI框架構建,從數據預處理到模型訓練的全流程均在國產硬件環境中完成。作為首個在國產芯片上實現全程訓練的SOTA多模態模型,其成功驗證了國產AI生態的完整性與成熟度。
在架構設計層面,研發團隊摒棄了開源社區常用的LDM方案,創新性地采用自回歸與擴散解碼器相結合的混合架構。這種設計使模型既能精準理解全局指令,又能細致刻畫局部細節,尤其在處理復雜視覺文本生成任務時表現出色。測試數據顯示,GLM-Image在CVTG-2K復雜視覺文本生成榜單和LongText-Bench長文本渲染榜單中均取得開源模型第一的成績。
該模型的核心優勢體現在對中文場景的深度優化。通過專項訓練,GLM-Image能夠準確理解中文指令并生成高質量圖像,在漢字生成任務中展現出顯著優勢。其應用場景覆蓋海報設計、PPT制作、科普圖生成等知識密集型領域,可有效提升內容創作效率。技術團隊透露,某科普平臺使用該模型后,圖文內容生產周期縮短了70%。
商業化落地方面,GLM-Image通過API調用模式將單張圖片生成成本降至0.1元。這一價格優勢使其迅速獲得市場關注,多家設計平臺與教育機構已啟動合作測試。行業分析師指出,低成本與高性能的結合將推動AI圖像生成技術從專業領域向大眾市場普及,可能引發內容創作行業的變革。
技術文檔顯示,GLM-Image的訓練數據集包含超過2億張中英文圖文對,通過動態權重調整機制實現了多語言場景的均衡優化。模型參數規模達30億,在保持高效推理的同時支持實時編輯功能。目前,其開源代碼與預訓練權重已在Hugging Face平臺開放下載,全球開發者均可參與二次開發。











