滾動資訊

當前位置：首頁 > 資訊 > 信息流 > 正文內容

DeepSeek-OCR 2革新登場：棄CLIP用Qwen輕量模型，性能直追Gemini-3 Pro

時間：2026-01-27 23:54:32 來源：互聯網編輯：快訊 IP：北京 發表評論無障礙通道

DeepSeek團隊近日發布了全新開源的OCR模型DeepSeek-OCR 2，該模型專注于將PDF文檔精準轉換為Markdown格式。相較于初代版本，新模型在視覺標記處理方式上實現了突破性創新，通過引入動態語義重排機制，有效解決了傳統模型在復雜版面處理中的邏輯斷裂問題。

核心升級在于編碼器架構的革新。研發團隊摒棄了前代使用的CLIP組件，轉而采用輕量化語言模型Qwen2-0.5B構建DeepEncoder V2。這種架構變革賦予編碼器因果推理能力，使其能夠在視覺標記進入主解碼器前，自動完成符合人類閱讀習慣的語義重排。實驗數據顯示，新模型在OmniDocBench v1.5基準測試中達到91.09%的準確率，較基線提升3.73個百分點。

技術實現層面，DeepEncoder V2引入了雙流注意力機制。視覺標記采用全局雙向注意力，確保每個標記都能獲取完整圖像信息；新增的因果流查詢向量則遵循單向注意力規則，強制每個查詢只能關注先前的標記。這種設計構建了獨特的兩階段推理流程：編碼器階段完成語義重排，解碼器階段進行自回歸推理。通過可學習的查詢標記，模型實現了2D空間結構到1D語言序列的平滑轉換。

在架構優化方面，模型延續了經典的編碼器-解碼器結構。視覺分詞器采用80M參數的SAM-base架構，配合兩層卷積層將輸出維度壓縮至896維，實現16倍標記壓縮。為應對不同分辨率圖像，編碼階段設計了靈活的裁剪方案：全局視圖生成256個查詢標記，局部裁剪針對768×768區域生成144個查詢標記。最終輸入LLM的標記總數穩定在256至1120之間，與Gemini-1.5 Pro的視覺預算相當。

解碼器部分保留了3B參數的MoE結構，實際激活參數約500M。訓練流程采用三階段策略：首先通過下一標記預測任務預訓練編碼器，隨后聯合優化編碼器與解碼器的查詢表示，最后凍結編碼器專注微調解碼器。這種分階段訓練方式在相同算力消耗下實現了更高的數據吞吐量。

基準測試顯示，新模型在文檔解析編輯距離指標上達到0.100，優于Gemini-3 Pro的0.115。閱讀順序編輯距離從0.085顯著降至0.057，證明其視覺信息重排能力。實際生產環境驗證中，在線用戶日志重復率從6.25%降至4.17%，PDF生產數據重復率從3.69%降至2.88%，充分體現了模型邏輯理解能力的提升。

數據策略方面，研發團隊延續了前代80%的OCR相關數據占比，但對數據分布進行關鍵優化：將正文、公式與表格按3:1:1比例采樣，合并語義相似的布局標簽。這種調整確保了模型與基準測試的高度一致性，為性能對比提供了可靠基礎。

該模型已在GitHub和HuggingFace平臺開源，相關技術論文同步發布。這項創新為多模態學習領域提供了新思路，其通過語言模型架構實現視覺編碼器優化的路徑，為開發統一的全模態編碼器奠定了技術基礎。

更多>同類資訊

AI“雇人”干活新平臺RentAHuman.ai上線，為人類創造新就業契機

隨著用戶數量激增，平臺上逐漸出現更多現實任務，包括代取舊金山郵局掛號信件、向 Anthropic 總部送花致謝，以及來自 AI 助手 DanXiaojuan 的請求 —— 尋找并拍攝一根“最漂亮、最酥脆的…

02-08

春運自駕出行必看！“鷹眼守護”為你預警風險，助你平安到家

02-08

邁莎銳為法拉利12Cilindri打造專屬改裝，碳纖維與動力升級共鑄超跑新魅力

02-08

海南商發二號發射工位“四缸”調試成功，助力更大火箭發射任務

02-07

最新研究：木星尺寸“更新” 赤道半徑略減卻更顯扁態

02-07

國產首臺盾構飽和帶壓進倉設備“深海空間站”首秀成功助力深埋跨海隧道建設

02-07

海南商發二號發射工位“四缸”調試成功助力大型火箭發射任務

02-07

海南商發二號發射工位“四缸”調試成功，為更大火箭發射筑牢技術根基

02-07

太空光伏：從概念到產業新藍海，開啟能源革命新篇章

這一閉環生態將太空通信、地面能源與人工智能算力需求緊密串聯，凸顯了能源在未來的核心基礎地位。面向未來，兩種技術路線正展現巨大潛力：異質結電池在性能與成本間取得了良好平衡，其超薄化、柔性化的特點完美適配低軌衛星…

02-07

全球各國央行日益青睞從美聯儲"挖角"頂尖人才

02-07

青藏高原蛇綠巖藏天然氫氣“密碼” 為清潔能源勘探指明新方向

記者從中國科學院地質與地球物理研究所獲悉，該研究所劉傳周和吳福元領銜的研究團隊在青藏高原的蛇綠巖中，首次發現了封存于微觀包裹體內的天然氫氣。這一發現，完整勾勒出天然氫氣從深部生成、遷移到近地表聚集的“源—匯”…

02-07

洋山港1月干線集裝箱船舶流量首破800艘次，創歷史新高

02-07

澤連斯基：俄軍襲擊導致烏克蘭多地大規模停電

02-07

澤連斯基：不支持違反烏克蘭憲法的和平協議

02-07

沙特宣布對敘利亞進行重大投資

02-07

點擊查看更多 +

全站最新

全新一代理想L9：具身智能加持，以創新科技重塑旗艦SUV新標桿

2026年W5國內手機銷量榜變動：蘋果奪冠，華為緊隨，小米OV排名有新變化

華為影像旗艦“大跳水”，16GB+512GB直降3400元，成當下撿漏優選

7英寸巨屏手機或迎新動態！兩家廠商正在評估，未來市場值得期待

雷軍駕駛小米SU7秀漂移神技畫面張力十足溫馨提醒：漂移需謹慎切勿盲目跟風

雷軍駕駛小米SU7秀漂移神技畫面張力十足：安全第一切勿盲目跟風

熱門內容

本欄最新

邁莎銳為法拉利12Cilindri打造專屬改裝，碳纖維與動力升級共鑄超跑新魅力

千問APP免單繼續！用AI買盒馬，買魚買菜買年貨、一句話送到家

“碰一下開門”覆蓋1.5萬小區淘寶閃購助力騎士送單提速暢通外賣“最后100米”

馬斯克回應SpaceX推遲火星計劃優先推進月球任務

燧原科技沖擊IPO，聚焦AI芯片領域，三年多虧損超51億

創新藥強復蘇！CRO二波行情已啟動？這波機會別錯過！

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

DeepSeek-OCR 2革新登場：棄CLIP用Qwen輕量模型，性能直追Gemini-3 Pro