2月27日消息,就在外界翹首期盼DeepSeek-V4大模型發(fā)布之際,DeepSeek團隊再次帶來了一份技術(shù)驚喜。
論文開篇指出了一個重要趨勢:LLM正在從單輪對話機器人演變?yōu)槟軌蜃灾饕?guī)劃、調(diào)用工具、解決現(xiàn)實世界任務(wù)的Agentic系統(tǒng)。在這種新范式下,模型不再處理孤立的提示詞,而是參與長達數(shù)十甚至數(shù)百輪的長期會話,上下文不斷累積。
這種變化帶來了全新的計算特征:高KV-Cache(鍵值緩存)命中率、低計算需求。論文中的數(shù)據(jù)顯示,在典型的編碼任務(wù)軌跡中,平均輪次達到157輪,平均上下文長度32.7K tokens,而每次追加的平均長度僅429 tokens,這意味著KV-Cache命中率高達98.7%。
這種“長上下文、短追加、多輪次”的工作負載模式,使得KV-Cache的加載效率而非計算效率成為主導(dǎo)性能的關(guān)鍵因素。
現(xiàn)有架構(gòu)的致命弱點
當(dāng)前主流的LLM推理系統(tǒng)普遍采用預(yù)填充-解碼分離架構(gòu)。在這種設(shè)計中,預(yù)填充引擎負責(zé)從分布式存儲加載KV-Cache,然后傳輸給解碼引擎進行自回歸生成。
然而,論文揭示了一個嚴重的資源利用不平衡問題:預(yù)填充引擎的存儲網(wǎng)絡(luò)帶寬成為整個系統(tǒng)的吞吐瓶頸,而解碼引擎的存儲網(wǎng)絡(luò)帶寬卻基本閑置。
更令人擔(dān)憂的是硬件發(fā)展趨勢。論文數(shù)據(jù)顯示,從NVIDIA Ampere架構(gòu)到Blackwell架構(gòu),I/O與計算的比例下降了14.4倍。這意味著GPU算力增長遠快于網(wǎng)絡(luò)帶寬和HBM容量的增長,導(dǎo)致I/O瓶頸問題日益嚴重。
面對這一挑戰(zhàn),DeepSeek團隊提出了一個反直覺的解決方案:讓KV-Cache加載不再局限于預(yù)填充引擎。
實現(xiàn)這一設(shè)計面臨三個關(guān)鍵挑戰(zhàn):
推理吞吐量提升近2倍
論文在三個模型上進行了全面評估:DeepSeek-V3.2 660B、一個27B的降規(guī)模版本以及Qwen2.5-32B。
同時,論文也指出了未來工作方向:更自適應(yīng)、更靈活的并行度和預(yù)填充-解碼比例配置方法,以及在大規(guī)模部署中實現(xiàn)更低的TTFT(Time To First Token)百分位數(shù)。










