滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

DeepSeek最新王炸模型：VLM架構重磅突破，AI像人一樣讀圖

時間：2026-01-27 22:33:02 來源：智東西編輯：快訊 IP：北京 發表評論無障礙通道

頭圖由AI生成

這一框架可用于集成額外文本、語音和視覺等多種模態。

作者 | 陳駿達

編輯 | 云鵬

智東西1月27日報道，剛剛，DeepSeek開源了其面向OCR場景的專用模型DeepSeek-OCR 2，技術報告同步發布。這一模型是對去年DeepSeek-OCR模型的升級，其采用的新型解碼器讓模型看圖、讀文件的順序更像人，而不是像機械的掃描儀。

簡單來說，以前的模型閱讀模式是從左上到右下，地毯式掃一遍圖片，DeepSeek-OCR 2則能夠理解結構，按結構一步步讀。這種新的視覺理解模式，讓DeepSeek-OCR 2可以更好地理解復雜的布局順序、公式和表格。

在文檔理解基準測試OmniDocBench v1.5上，DeepSeek-OCR 2拿到了91.09%的得分，在訓練數據和編碼器都不變的前提下，較DeepSeek-OCR提升了3.73%。與其他端到端的OCR模型相比，這已經是SOTA成績，但其表現要略遜于百度的PaddleOCR-VL（92.86%）OCR管線。

同時，在相似的視覺token預算下，DeepSeek-OCR 2在文檔解析方面的編輯距離（編輯為正確文本所需的工作量）低于Gemini-3 Pro，這證明DeepSeek-OCR 2在確保優越性能的同時保持了視覺token的高壓縮率。

DeepSeek-OCR 2兼具雙重價值：既可作為新型VLM（視覺語言模型）架構進行探索性研究，也能作為生成高質量預訓練數據的實用工具，服務于大語言模型的訓練過程。

論文鏈接：

https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

開源地址：

https://github.com/deepseek-ai/DeepSeek-OCR-2?tab=readme-ov-file

01.

大模型不懂復雜文件結構？

先觀察全局再閱讀便可解決

從架構上來看，DeepSeek-OCR 2繼承了DeepSeek-OCR的整體架構，該架構由編碼器和解碼器組成。編碼器將圖像離散化為視覺token，而解碼器根據這些視覺token和文本提示生成輸出。

關鍵區別在于編碼器：DeepSeek將此前的DeepEncoder升級為DeepEncoder V2，它保留了原有的所有能力，但把原本基于CLIP的編碼器換成基于LLM的，同時通過新的架構設計引入了因果推理。

DeepEncoder V2關注的核心問題在于：當二維結構被映射為一維序列并綁定線性順序后，模型在建?？臻g關系時不可避免地受到該順序的影響。

這在自然圖像中可能尚可接受，但在OCR、表格、表單等具有復雜布局的場景中，線性順序往往與真實的語義組織方式嚴重不匹配，從而限制模型對視覺結構的表達能力。

DeepEncoder V2是如何緩解這一問題的？它首先采用視覺tokenizer對圖像進行高效表示，通過窗口注意力實現約16倍的token壓縮，在顯著降低后續全局注意力計算與顯存開銷的同時，保持了充分的局部與中尺度視覺信息。

它并未依賴位置編碼來規定視覺token的語義順序，而是引入因果流查詢（causal queries），通過內容感知的方式對視覺標記進行重排序與蒸餾。這種順序不是由空間展開規則決定，而是由模型在觀察全局視覺上下文后逐步生成，從而避免了對固定一維順序的強依賴。

每個因果查詢可以關注所有視覺token及先前查詢，從而在保持token數量不變的前提下，對視覺特征進行語義重排序與信息蒸餾。最終，僅因果查詢的輸出被送入下游LLM解碼器。

該設計本質上形成了兩級級聯的因果推理過程：首先，編碼器內部通過因果查詢對無序的視覺標記進行語義排序。隨后，LLM解碼器在此有序序列上執行自回歸推理。

相較于通過位置編碼強制施加空間順序的做法，因果查詢所誘導的順序更貼合視覺語義本身，也就是符合人類閱讀內容的正常習慣。

由于DeepSeek-OCR 2主要關注編碼器改進，沒有對解碼器組件進行升級。遵循這一設計原則，DeepSeek保留了DeepSeek-OCR的解碼器：一個具有約5億活躍參數的3B參數MoE結構。

02.

OmniDocBench得分達91.09%

編輯距離低于Gemini-3 Pro

為了驗證上述設計的有效性，DeepSeek進行了實驗。研究團隊分三個階段訓練DeepSeek-OCR 2：編碼器預訓練、查詢增強和解碼器專業化。

第一階段使視覺tokenizer和LLM風格的編碼器獲得特征提取、token壓縮和token重排序的基本能力。第二階段進一步增強了編碼器的token重排序能力，同時增強了視覺知識壓縮。第三階段凍結編碼器參數，僅優化解碼器，從而在相同的FLOPs下實現更高的數據吞吐量。

為評估模型效果，DeepSeek選擇OmniDocBench v1.5作為主要的評估基準。該基準包含1355個文檔頁面，涵蓋中英文的9個主要類別（包括雜志、學術論文、研究報告等）。

DeepSeek-OCR 2在僅使用最小的視覺標記上限（V-token maxmax）的情況下，達到了91.09%的性能。與DeepSeek-OCR基線相比，在相似的訓練數據源下，它表現出3.73%的改進，驗證了新架構的有效性。

除了整體改進外，閱讀順序（R-order）的編輯距離（ED）也顯著下降（從0.085降至0.057），這表明新的DeepEncoder V2可以根據圖像信息有效地選擇和排列初始視覺標記。

在相似的視覺標記預算（1120）下，DeepSeek-OCR 2（0.100）在文檔解析方面的編輯距離低于Gemini-3 Pro（0.115），進一步證明新模型在確保性能的同時保持了視覺標記的高壓縮率。

不過，DeepSeek-OCR 2也不是全能的。在文本密度超高的報紙上，DeepSeek-OCR 2識別效果沒有其他類型的文本好。這一問題后續可以通過增加局部裁剪數量來解決，或者在訓練過程中提供更多的樣本。

03.

結語：或成新型VLM架構開端

DeepEncoder V2為LLM風格編碼器在視覺任務上的可行性提供了初步驗證。更重要的是，DeepSeek的研究團隊認為，該架構具有演變為統一全模態編碼器的潛力。這樣的編碼器可以在同一參數空間內壓縮文本、提取語音特征和重組視覺內容。

DeepSeek稱，DeepSeek-OCR的光學壓縮代表了向原生多模態的初步探索，未來，他們還將繼續探索通過這種共享編碼器框架集成額外模態，成為研究探索的新型VLM架構的開端。

更多>同類資訊

馬斯克：SpaceX星艦V3版將在六周后發射

01-27

留幾手吐槽影視颶風：砸錢霸屏小紅書違背自媒體初心

01-27

理想員工吐槽李想全員會不講車講AI

01-27

小米YU7獲2025微博年度純電車型，雷軍：感謝認可

01-27

3D版Nano Banana來了！AI修模成為現實，3D生成進入可編輯時代

01-27

月之暗面發布開源模型Kimi K2.5

01-27

千問PC和網頁端上線國內最強推理模型，主動性更強、擅長邏輯推理

01-27

Meta啟動社交平臺付費測試，AI能力成訂閱核心賣點

01-27

快手年終獎方案曝光：1月30日就發，激勵總包上漲，績優再次加碼

01-27

聽花島的內核：一個「學習型組織」如何持續拉高短劇天花板

01-27

永輝“胖改”交出慘淡成績單：虧損關店不斷，葉國富豪賭卻浮盈60億

一面是“大而?！钡睦Ь常何羧瞻灾饔垒x超市，在轟轟烈烈的學習胖東來（“胖改”）中，交出了虧損超21億元、關店381家的成績單，資產負債率逼近90%，陷入連續第五年虧損。換言之，永輝超市2025年由于胖改而產…

01-27

阿里健康醫學AI應用“氫離子”上線新功能，支持全球醫學文獻日更追蹤

01-27

ChatGPT 廣告時代開啟：千次展示 60 美元，主打“高轉化”與“強隱私”

01-27

百度文心APP開啟行業首個“多人多Agent”群聊內測

01-27

破解高退貨率難題：微盟推出“AI試衣”助力零售電商智能化升級

01-27

點擊查看更多 +

全站最新

永輝“胖改”交出慘淡成績單：虧損關店不斷，葉國富豪賭卻浮盈60億

卡車也會"智慧運算"？中國重汽智能輔助駕駛，給出干線物流增效最優解

同程旅行："史上最長春節"催熱長線出境游，沙特、阿曼、新西蘭、澳大利亞等長線目的地熱度提升顯著

江蘇寧滬高速公路(00177.HK)獲云杉資本增持827.4萬股

金力永磁(06680.HK)遭Allianz SE減持77.26萬股

日清食品(01475.HK)獲首席執行官兼執行董事安藤清隆增持23.4萬股

熱門內容

本欄最新

鴻蒙智行尚界Z7預告出爐，國產高端轎跑新勢力能否超越小米SU7？

《2025汽車保值率報告出爐：小米SU7純電動車領域奪冠，雷軍致謝用戶》

《2025汽車保值率報告》發布小米SU7首登年度榜即成純電動車一年保值率冠軍

百度智能云定調2026：AI收入增速目標翻番至200%，全力沖刺AI云市場榜首

數字產品制造業：以超20%貢獻率，驅動中國經濟向新攀高穩進前行

Kimi K2.5模型開源上線：多模態升級，視覺代碼能力提升，Agent集群機制革新

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

DeepSeek最新王炸模型：VLM架構重磅突破，AI像人一樣讀圖

DeepSeek最新王炸模型：VLM架構重磅突破，AI像人一樣讀圖