鳳凰網(wǎng)科技訊 2月3日,智譜宣布正式發(fā)布并開源GLM-OCR。據(jù)介紹,該模型僅0.9B參數(shù)規(guī)模,支持vLLM、SGLang和Ollama部署,在公式識別、表格識別、信息抽取的多項(xiàng)主流基準(zhǔn)中均取得SOTA表現(xiàn)。
據(jù)官方信息,GLM-OCR針對手寫體、復(fù)雜表格、代碼文檔、印章識別及多語言混排等場景進(jìn)行了優(yōu)化。在效率方面,其處理PDF文檔的吞吐量可達(dá)1.86頁/秒。通過API調(diào)用,其定價(jià)為0.2元/百萬Tokens。
該模型采用“編碼器-解碼器”架構(gòu),集成了自研的CogViT視覺編碼器,并采用“版面分析→并行識別”的兩階段技術(shù)流程。模型完整SDK與推理工具鏈已同步開源,適用于高并發(fā)及邊緣計(jì)算場景。










