岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear旗下自媒體矩陣:

DeepSeek-OCR 2革新登場:棄CLIP用Qwen輕量模型,性能直追Gemini-3 Pro

   時間:2026-01-27 23:54:32 來源:互聯網編輯:快訊 IP:北京 發表評論無障礙通道
 

DeepSeek團隊近日發布了全新開源的OCR模型DeepSeek-OCR 2,該模型專注于將PDF文檔精準轉換為Markdown格式。相較于初代版本,新模型在視覺標記處理方式上實現了突破性創新,通過引入動態語義重排機制,有效解決了傳統模型在復雜版面處理中的邏輯斷裂問題。

核心升級在于編碼器架構的革新。研發團隊摒棄了前代使用的CLIP組件,轉而采用輕量化語言模型Qwen2-0.5B構建DeepEncoder V2。這種架構變革賦予編碼器因果推理能力,使其能夠在視覺標記進入主解碼器前,自動完成符合人類閱讀習慣的語義重排。實驗數據顯示,新模型在OmniDocBench v1.5基準測試中達到91.09%的準確率,較基線提升3.73個百分點。

技術實現層面,DeepEncoder V2引入了雙流注意力機制。視覺標記采用全局雙向注意力,確保每個標記都能獲取完整圖像信息;新增的因果流查詢向量則遵循單向注意力規則,強制每個查詢只能關注先前的標記。這種設計構建了獨特的兩階段推理流程:編碼器階段完成語義重排,解碼器階段進行自回歸推理。通過可學習的查詢標記,模型實現了2D空間結構到1D語言序列的平滑轉換。

在架構優化方面,模型延續了經典的編碼器-解碼器結構。視覺分詞器采用80M參數的SAM-base架構,配合兩層卷積層將輸出維度壓縮至896維,實現16倍標記壓縮。為應對不同分辨率圖像,編碼階段設計了靈活的裁剪方案:全局視圖生成256個查詢標記,局部裁剪針對768×768區域生成144個查詢標記。最終輸入LLM的標記總數穩定在256至1120之間,與Gemini-1.5 Pro的視覺預算相當。

解碼器部分保留了3B參數的MoE結構,實際激活參數約500M。訓練流程采用三階段策略:首先通過下一標記預測任務預訓練編碼器,隨后聯合優化編碼器與解碼器的查詢表示,最后凍結編碼器專注微調解碼器。這種分階段訓練方式在相同算力消耗下實現了更高的數據吞吐量。

基準測試顯示,新模型在文檔解析編輯距離指標上達到0.100,優于Gemini-3 Pro的0.115。閱讀順序編輯距離從0.085顯著降至0.057,證明其視覺信息重排能力。實際生產環境驗證中,在線用戶日志重復率從6.25%降至4.17%,PDF生產數據重復率從3.69%降至2.88%,充分體現了模型邏輯理解能力的提升。

數據策略方面,研發團隊延續了前代80%的OCR相關數據占比,但對數據分布進行關鍵優化:將正文、公式與表格按3:1:1比例采樣,合并語義相似的布局標簽。這種調整確保了模型與基準測試的高度一致性,為性能對比提供了可靠基礎。

該模型已在GitHub和HuggingFace平臺開源,相關技術論文同步發布。這項創新為多模態學習領域提供了新思路,其通過語言模型架構實現視覺編碼器優化的路徑,為開發統一的全模態編碼器奠定了技術基礎。

 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 国产日本在线观看 | 欧美在线视频播放 | 亚洲视频成人 | 中文字幕播放 | 在线播放h| 黄色大片网 | 欧美日韩视频在线 | 色国产精品 | 麻豆成人入口 | 国产精品日日夜夜 | 亚洲天堂资源 | 久久久久久一级片 | 影音先锋国产在线 | 亚洲视频二 | 亚洲精品a级| 国产www性 | 黄色免费小视频 | 二女同志亚洲人狂欢 | 黄在线免费观看 | 久久网站精品 | 亚洲福利片| 欧美激情网站 | 97成人免费视频 | 久久久啊啊啊 | 亚洲精品九九 | 日韩精品在线视频观看 | 国产91在线播放精品91 | 欧美日韩视频在线 | 天堂网中文字幕 | 国产aa视频| 日本毛片视频 | 福利社午夜影院 | 永久免费精品 | 精品一区视频 | 欧美大胆视频 | 加勒比在线一区 | 成人精品一区二区三区中文字幕 | 有码在线视频 | 日本特黄一级片 | 狠狠操狠狠插 | 美日韩视频|