3月19日消息,百度千帆正式發(fā)布全新端到端文檔智能模型 Qianfan-OCR。該模型基于統(tǒng)一的視覺(jué)語(yǔ)言架構(gòu),以4B參數(shù)規(guī)模實(shí)現(xiàn)了對(duì)文檔解析、版面分析、文字識(shí)別與語(yǔ)義理解的全面融合,在多項(xiàng)權(quán)威評(píng)測(cè)中取得領(lǐng)先表現(xiàn)。
目前,Qianfan-OCR已在千帆平臺(tái)上線,并同步在HuggingFace開(kāi)源了模型權(quán)重,面向開(kāi)發(fā)者與企業(yè)用戶開(kāi)放使用。
據(jù)介紹,在核心Benchmark中,Qianfan-OCR表現(xiàn)尤為突出。在 OmniDocBench v1.5上取得 93.12分的成績(jī),端到端模型中位列第一;OCRBench遠(yuǎn)高于同尺寸通用視覺(jué)語(yǔ)言模型和專用OCR模型;在關(guān)鍵信息提取(KIE)的多個(gè)公開(kāi)榜單總分上,超過(guò)了Google Gemini 3-Pro等商用模型。
在圖表理解等復(fù)雜任務(wù)中,端到端模型的優(yōu)勢(shì)更加明顯,Qianfan-OCR在ChartQA、ChartBench等6項(xiàng)圖表理解復(fù)雜任務(wù)中,拿下了5項(xiàng)最佳成績(jī),展現(xiàn)了強(qiáng)大的結(jié)構(gòu)理解與多模態(tài)推理能力。
傳統(tǒng) OCR 系統(tǒng)普遍沿用“檢測(cè)+識(shí)別+LLM”三段式Pipeline架構(gòu)。這一模式雖已工程成熟,但多階段串聯(lián)處理會(huì)在各環(huán)節(jié)不斷放大誤差,且文本逐塊提取過(guò)程中原有的空間結(jié)構(gòu)與視覺(jué)上下文信息往往遭到破壞,使得圖表、復(fù)雜表格等內(nèi)容的理解能力受到明顯制約。
Qianfan-OCR 從底層架構(gòu)出發(fā)進(jìn)行重構(gòu),通過(guò)統(tǒng)一的端到端視覺(jué)語(yǔ)言模型,直接從文檔圖像生成結(jié)構(gòu)化結(jié)果,完整保留視覺(jué)信息,實(shí)現(xiàn)從“看見(jiàn)文檔”到“理解文檔”的一步直達(dá),在結(jié)構(gòu)理解與推理任務(wù)中具備更高的一致性與準(zhǔn)確性。
Qianfan-OCR在文檔解析與理解一體化能力上的領(lǐng)先表現(xiàn),進(jìn)一步驗(yàn)證了端到端技術(shù)路線的可行性與先進(jìn)性,標(biāo)志著文檔智能能力正從“流程拼接”邁向“模型統(tǒng)一”的新階段。(宜月)










