深度求索團隊近日宣布開源新一代文檔理解模型DeepSeek-OCR 2,并同步發布技術論文《DeepSeek-OCR 2: Visual Causal Flow》。該模型在綜合性文檔理解基準OmniDocBench v1.5測試中取得91.09%的突破性成績,較前代提升3.73個百分點,尤其在復雜文檔的邏輯順序還原能力上實現質的飛躍。
傳統OCR技術采用"機械掃描"式處理方式,通過固定網格切割圖像后按空間順序識別文字。這種模式在處理學術論文、金融報表等多欄排版文檔時,常出現邏輯斷裂、語義關聯丟失等問題。DeepSeek-OCR 2通過引入"視覺因果流"編碼范式,使模型具備自主推理文檔結構的能力,實現從"機械掃描"到"智能閱讀"的認知升級。
新模型的核心創新在于DeepEncoder V2架構,該架構通過三階段處理流程重構文檔理解邏輯:首先利用雙向注意力機制建立全局視覺感知,繼而通過因果流查詢組件動態推導最優閱讀順序,最終將高維視覺信息壓縮為富含語義的視覺標記序列。這種處理方式使模型輸出的視覺序列自帶因果順序特征,為后續語言解碼提供結構清晰的"思考藍圖"。
在性能表現上,DeepSeek-OCR 2展現出顯著優勢。其視覺標記壓縮率較前代提升40%,僅需256-1120個標記即可精準表示復雜文檔內容,大幅降低下游計算負擔。在學術論文、財務報表等場景測試中,模型不僅能準確識別文字,更能還原段落間的邏輯關系,輸出文本可直接用于分析歸檔。標準化編輯距離指標提升33%,證明其在閱讀順序準確性上的突破性進展。
技術團隊指出,該模型的價值不僅限于OCR領域。其驗證的因果流機制為多模態AI架構提供新思路——未來模型或可通過類似機制,自主理解文本、圖像、音視頻等不同模態信息的內在結構,生成統一的語義表示。這種處理方式更接近人類認知模式,有望推動跨模態理解與生成技術發展。
當前模型在極端密集文本場景(如古典報紙)的識別效果仍有優化空間。研究團隊表示將持續改進模型魯棒性,同時探索因果流機制在更多模態領域的應用可能性。











