近日,人工智能領(lǐng)域迎來一項重要突破——智譜與華為攜手開源新一代圖像生成模型GLM-Image。該模型依托昇騰Atlas 800T A2硬件設(shè)備與昇思MindSpore AI框架,實現(xiàn)了從數(shù)據(jù)處理到模型訓(xùn)練的全流程國產(chǎn)化,成為首個在國產(chǎn)芯片上完成完整訓(xùn)練的SOTA級多模態(tài)生成模型。
開源僅24小時內(nèi),GLM-Image便以顯著優(yōu)勢登頂全球AI開源社區(qū)Hugging Face的Trending榜單首位。這一成就標(biāo)志著完全基于國產(chǎn)技術(shù)鏈訓(xùn)練的AI模型首次在國際主流平臺取得領(lǐng)先地位,為國產(chǎn)人工智能生態(tài)建設(shè)樹立了新的里程碑。
在技術(shù)架構(gòu)層面,GLM-Image突破傳統(tǒng)開源方案局限,創(chuàng)新采用"自回歸編碼+擴(kuò)散解碼"的混合架構(gòu)設(shè)計。該架構(gòu)在保持與主流方案兼容性的同時,通過知識增強(qiáng)機(jī)制顯著提升了模型在復(fù)雜場景下的文本理解與圖像生成能力,特別在漢字結(jié)構(gòu)處理等任務(wù)中展現(xiàn)出獨特優(yōu)勢。
訓(xùn)練體系方面,研發(fā)團(tuán)隊針對國產(chǎn)硬件特性進(jìn)行深度優(yōu)化,成功實現(xiàn)模型訓(xùn)練與推理的全流程適配。實際測試數(shù)據(jù)顯示,GLM-Image在昇騰計算平臺上的訓(xùn)練效率達(dá)到理論性能上限的92%,驗證了國產(chǎn)算力支撐前沿AI模型研發(fā)的可行性,為破解高端芯片依賴提供了新思路。
性能評估顯示,該模型在CVTG-2K復(fù)雜視覺文本生成和LongText-Bench長文本渲染兩項權(quán)威基準(zhǔn)測試中均位列開源模型榜首。其核心優(yōu)勢在于精準(zhǔn)的指令理解能力與高質(zhì)量的文本渲染效果,尤其在中文海報設(shè)計、學(xué)術(shù)圖表生成等知識密集型場景中表現(xiàn)出色,可有效支持教育、傳媒、科研等領(lǐng)域的智能化轉(zhuǎn)型。
據(jù)項目團(tuán)隊介紹,GLM-Image的研發(fā)目標(biāo)聚焦于構(gòu)建全鏈條自主創(chuàng)新的生成式AI系統(tǒng)。此次技術(shù)突破不僅驗證了新型"認(rèn)知型生成"技術(shù)范式的有效性,更為后續(xù)開發(fā)具備更高語義理解能力的智能生成工具奠定了基礎(chǔ),有望推動多模態(tài)大模型進(jìn)入全新發(fā)展階段。










