1月16日消息,今日,智譜宣布,其聯(lián)合華為開源的新一代圖像生成模型GLM-Image,在開源不到24小時內(nèi),登上全球知名AI開源社區(qū)Hugging Face(抱抱臉)榜單全球第一。
智譜表示,這是首次完全依托國產(chǎn)芯片訓(xùn)練的國產(chǎn)模型在國際舞臺上取得榜首位置,標(biāo)志國產(chǎn)AI模型的端到端自主研發(fā)能力在國際競爭中取得突破。
據(jù)了解,GLM-Image基于昇騰Atlas 800T A2設(shè)備和昇思MindSpore AI框架完成從數(shù)據(jù)到訓(xùn)練的全流程,是首個在國產(chǎn)芯片上完成全程訓(xùn)練的SOTA多模態(tài)模型。
在模型架構(gòu)上,GLM-Image不同于開源常用的LDM方案,創(chuàng)新性地采用自回歸+擴(kuò)散解碼器的混合架構(gòu),兼顧全局指令理解與局部細(xì)節(jié)刻畫。
性能方面,GLM-Image在CVTG-2K(復(fù)雜視覺文本生成)和LongText-Bench(長文本渲染)榜單獲得開源第一,能夠讀懂指令,寫對文字,尤其擅長漢字生成任務(wù),可廣泛應(yīng)用于海報、PPT、科普圖等知識密集型場景。
在商業(yè)化應(yīng)用方面,GLM-Image API調(diào)用模式下,單張圖片生成成本僅為0.1元,大幅降低了企業(yè)和開發(fā)者使用先進(jìn)圖像生成技術(shù)的門檻。











