DeepSeek團隊近日宣布推出全新升級的DeepSeek-OCR2模型,該模型通過引入創新的DeepEncoder V2視覺編碼器架構,實現了視覺處理范式的重大突破。與傳統模型機械式的圖像掃描方式不同,新架構模擬人類視覺認知的因果邏輯流,能夠根據內容語義動態調整信息處理順序。
核心技術創新在于視覺編碼器的重構。研究團隊采用輕量化Qwen2-0.5B語言模型替代傳統CLIP編碼器,構建了包含視覺分詞器和因果查詢機制的雙模塊架構。視覺分詞器沿用SAM-base架構配合卷積層,將圖像轉換為視覺標記;而獨特的因果流查詢機制通過可學習的查詢標記,配合雙向與因果混合的注意力掩碼設計,實現了視覺信息的語義重排。
實驗數據顯示,新模型在保持極高壓縮率的同時顯著提升處理精度。在OmniDocBench v1.5基準測試中,使用256-1120個視覺標記的DeepSeek-OCR2取得91.09%的綜合得分,較前代提升3.73%。特別值得注意的是,閱讀順序編輯距離指標從0.085優化至0.057,證明模型在復雜版面處理中展現出更強的邏輯性。
與閉源強模型Gemini-3 Pro的對比測試中,DeepSeek-OCR2在約1120個視覺標記的條件下,文檔解析編輯距離達到0.100,優于對手的0.115。生產環境測試顯示,該模型使在線用戶日志圖像的OCR結果重復率從6.25%降至4.17%,PDF數據處理重復率從3.69%降至2.88%,顯著提升了數據清洗效率。
研究團隊強調,這項突破驗證了"語言模型作為視覺編碼器"的技術路徑可行性。通過配備不同模態的查詢嵌入,同一編碼器架構未來有望同時處理文本、圖像、音頻等多模態數據,為構建原生多模態系統奠定基礎。目前模型代碼、論文及預訓練權重已在GitHub和HuggingFace平臺開源發布。










