智譜公司近日在官方渠道宣布,其自主研發的輕量級專業OCR模型GLM-OCR已正式對外發布并開源。該模型以0.9B的參數量級實現了高效能表現,在文檔解析領域展現出顯著優勢。
作為一款專為復雜文檔場景設計的工具,GLM-OCR支持通過vLLM、SGLang和Ollama等多種框架進行部署。這種多平臺兼容性使其能夠靈活適配不同技術棧的開發需求,為開發者提供了更便捷的應用選擇。
在權威評測基準OmniDocBench V1.5中,該模型以94.6分的成績刷新了榜單紀錄,在文本識別、公式解析、表格結構還原及信息抽取四個關鍵維度均超越同類專用模型。其綜合性能表現已接近國際領先水平的Gemini-3-Pro模型,而參數量僅為后者的約百分之一。
技術團隊透露,GLM-OCR通過創新的架構設計實現了算力與精度的平衡。其輕量化特性不僅降低了部署成本,更在保持專業級解析能力的同時,顯著提升了處理速度。這種特性使其在移動端設備、邊緣計算等資源受限場景中具有廣闊應用前景。







