DeepSeek團隊近日發布了全新開源的OCR模型DeepSeek-OCR 2,該模型專注于將PDF文檔精準轉換為Markdown格式。相較于初代版本,新模型在視覺標記處理方式上實現了突破性創新,通過引入動態語義重排機制,有效解決了傳統模型在復雜版面處理中的邏輯斷裂問題。
核心升級在于編碼器架構的革新。研發團隊摒棄了前代使用的CLIP組件,轉而采用輕量化語言模型Qwen2-0.5B構建DeepEncoder V2。這種架構變革賦予編碼器因果推理能力,使其能夠在視覺標記進入主解碼器前,自動完成符合人類閱讀習慣的語義重排。實驗數據顯示,新模型在OmniDocBench v1.5基準測試中達到91.09%的準確率,較基線提升3.73個百分點。
技術實現層面,DeepEncoder V2引入了雙流注意力機制。視覺標記采用全局雙向注意力,確保每個標記都能獲取完整圖像信息;新增的因果流查詢向量則遵循單向注意力規則,強制每個查詢只能關注先前的標記。這種設計構建了獨特的兩階段推理流程:編碼器階段完成語義重排,解碼器階段進行自回歸推理。通過可學習的查詢標記,模型實現了2D空間結構到1D語言序列的平滑轉換。
在架構優化方面,模型延續了經典的編碼器-解碼器結構。視覺分詞器采用80M參數的SAM-base架構,配合兩層卷積層將輸出維度壓縮至896維,實現16倍標記壓縮。為應對不同分辨率圖像,編碼階段設計了靈活的裁剪方案:全局視圖生成256個查詢標記,局部裁剪針對768×768區域生成144個查詢標記。最終輸入LLM的標記總數穩定在256至1120之間,與Gemini-1.5 Pro的視覺預算相當。
解碼器部分保留了3B參數的MoE結構,實際激活參數約500M。訓練流程采用三階段策略:首先通過下一標記預測任務預訓練編碼器,隨后聯合優化編碼器與解碼器的查詢表示,最后凍結編碼器專注微調解碼器。這種分階段訓練方式在相同算力消耗下實現了更高的數據吞吐量。
基準測試顯示,新模型在文檔解析編輯距離指標上達到0.100,優于Gemini-3 Pro的0.115。閱讀順序編輯距離從0.085顯著降至0.057,證明其視覺信息重排能力。實際生產環境驗證中,在線用戶日志重復率從6.25%降至4.17%,PDF生產數據重復率從3.69%降至2.88%,充分體現了模型邏輯理解能力的提升。
數據策略方面,研發團隊延續了前代80%的OCR相關數據占比,但對數據分布進行關鍵優化:將正文、公式與表格按3:1:1比例采樣,合并語義相似的布局標簽。這種調整確保了模型與基準測試的高度一致性,為性能對比提供了可靠基礎。
該模型已在GitHub和HuggingFace平臺開源,相關技術論文同步發布。這項創新為多模態學習領域提供了新思路,其通過語言模型架構實現視覺編碼器優化的路徑,為開發統一的全模態編碼器奠定了技術基礎。











