近期,開源社區(qū)因DeepSeek的一項新動向掀起熱議。其FlashMLA代碼庫頻繁更新,一款名為Model1的模型悄然進(jìn)入公眾視野,引發(fā)關(guān)于DeepSeek下一代旗艦?zāi)P偷牟聹y。結(jié)合代碼變更與社區(qū)分析,這款神秘模型的技術(shù)細(xì)節(jié)逐漸浮出水面。
在代碼庫的分支結(jié)構(gòu)中,Model1與DeepSeek-V3.2并列存在,形成獨(dú)立的技術(shù)路徑。這一布局暗示其并非V3系列的迭代補(bǔ)丁,而是基于全新架構(gòu)的工程版本。技術(shù)專家通過解析代碼差異發(fā)現(xiàn),Model1在核心參數(shù)設(shè)計上與V3系列存在顯著差異,例如將MLA架構(gòu)的head_dim從576維調(diào)整為512維。這種“標(biāo)準(zhǔn)化”回歸可能旨在優(yōu)化與NVIDIA Blackwell架構(gòu)的算力匹配,同時提升Latent壓縮效率。
硬件適配層面,代碼庫新增大量針對Blackwell GPU的優(yōu)化模塊。例如,api.cpp文件中出現(xiàn)的FMHACutlassSM100FwdRun接口,直接指向下一代GPU的核心指令集。根據(jù)運(yùn)行環(huán)境說明,Model1在B200芯片上需CUDA 12.9支持,其Sparse MLA算子已實現(xiàn)350 TFlops的初步性能,而H800芯片上的Dense MLA吞吐量則高達(dá)660 TFlops。這種跨代硬件的針對性優(yōu)化,進(jìn)一步印證了Model1的旗艦定位。
算子創(chuàng)新是Model1最突出的技術(shù)突破。測試腳本顯示,該模型同時支持Sparse與Dense兩種解碼模式,其中Sparse路徑采用FP8精度存儲KV Cache,計算時動態(tài)切換至bfloat16以保證精度。這種混合精度設(shè)計可顯著降低長文本推理的顯存占用,同時維持計算效率。社區(qū)推測,此特性或使Model1在處理超長上下文時具備優(yōu)勢。
代碼注釋中隱現(xiàn)的兩大新機(jī)制引發(fā)關(guān)注。首先是Value Vector Position Awareness(VVPA),該技術(shù)可能通過增強(qiáng)位置編碼的動態(tài)適應(yīng)性,解決傳統(tǒng)MLA架構(gòu)在長文本中的信息衰減問題。其次是Engram機(jī)制,盡管具體實現(xiàn)未完全公開,但結(jié)合分布式存儲相關(guān)的代碼邏輯,其或為KV Cache壓縮提供的全新解決方案,與Model1的高吞吐需求形成技術(shù)閉環(huán)。
目前,DeepSeek尚未對Model1的官方身份作出回應(yīng)。但技術(shù)社區(qū)普遍認(rèn)為,從架構(gòu)參數(shù)、硬件適配到算子設(shè)計,Model1均展現(xiàn)出跨越V3系列的技術(shù)特征。按照DeepSeek的版本命名慣例,V3.2之后的架構(gòu)代際升級,極有可能以V4命名。這款神秘模型是否會成為春節(jié)前后的技術(shù)驚喜,仍需等待官方確認(rèn)。











