國產大模型領域迎來重要進展。近日,DeepSeek開源全新項目并發布重磅論文,提出名為Engram的“條件記憶”機制,為解決MoE模型效率難題提供了創新方案,該機制有望成為其下一代模型DeepSeek-V4的核心架構。
論文作者陣容強大,由DeepSeek創始人兼CEO梁文鋒領銜,北大王選計算機研究所的趙東巖、張輝帥兩位教授參與其中。值得注意的是,論文第一作者程信是北大智能學院在讀博士生,同時也是DeepSeek實習生,曾深度參與R1、V3等核心項目研發。
Engram機制的核心創新在于為大模型構建“外接記憶庫”。傳統MoE模型在處理信息時,會對常見名字、公式等靜態知識進行重復計算,導致計算資源浪費和效率低下。DeepSeek團隊將這些固定知識整理成可快速查詢的表格,使模型能夠專注于復雜推理和長文本理解等核心任務。
這一設計帶來顯著優勢。數據顯示,Engram架構的訓練計算量較傳統MoE模型減少18%。在32768個token的長上下文任務中,該架構在RULER基準測試中表現優于同參數量MoE模型。其淺層部署的記憶模塊能夠處理局部依賴和靜態知識存儲,為注意力機制釋放更多容量用于全局推理。即使卸載1000億參數的記憶表,H800推理吞吐量降幅也不足3%。研究還發現,增加記憶槽位數量可持續降低驗證損失,為大模型性能提升提供了可預測的擴展路徑。
程信在Engram機制研發過程中發揮關鍵作用。剛加入DeepSeek時,他參與R1模型參數優化工作,因在高效參數化方法上的獨到見解被納入核心團隊。在研發初期,團隊面臨記憶模塊與主干網絡適配難題,程信結合研究方向提出分詞器壓縮與上下文感知門控結合的方案。他連續兩周在實驗室調整參數、驗證效果,最終解決了靜態記憶缺乏上下文適應性的關鍵問題。
程信的成長軌跡反映了DeepSeek與高校聯合培養模式的成效。據公開報道,該企業長期與北大、清華等高校開展人才聯合培養計劃,程信正是通過這一計劃進入企業實習。目前,DeepSeek核心研發團隊中,三成成員來自高校實習轉正的年輕人才。這種校企協同模式使青年科研人員在學術研究與工程落地結合中快速成長,成為推動國產大模型創新的重要力量。
從工程落地角度看,Engram機制具有顯著優勢。其記憶檢索完全依賴輸入token,實現了參數存儲與計算資源的解耦。訓練時可將超大嵌入表分片至多張GPU,推理時能提前預取數據避免GPU停頓。基于自然語言的Zipf分布特性,該機制采用多級緩存策略,高頻嵌入存于GPU或主機內存,低頻嵌入置于SSD,可輕松擴展至超大規模記憶。
DeepSeek在論文中明確表示,條件記憶將成為下一代稀疏模型的核心建模原語。目前,Engram的論文和項目已完全開源,開發者可通過GitHub獲取相關資料。這一開放舉措展現了國產大模型在核心技術領域的自信,有望吸引更多力量參與生態建設。











