滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

DeepSeek V4發布前，先邁出“關鍵一步”

時間：2026-03-02 17:20:25 來源：硅基星芒編輯：快訊 IP：北京 發表評論無障礙通道

DeepSeek又有新動作了。

不過，這次發布的，依然不是大家期待已久的DeepSeek-V4。

更重要的是，這套系統并非為常規對話而設計，它所瞄準的，是當下更復雜、也更火熱的智能體場景中的核心難題。

既然是三大頂尖機構聯手發布的技術成果，論文里自然少不了一堆專業術語，讀起來容易讓人頭大。

01

智能體推理：算力成了配角

你可能已經注意到，AI圈的風向變了——從“大模型”變成了“智能體”。

過去用大模型，交互很簡單：你輸入一段提示詞，模型思考幾輪，給你一個答案。

到了智能體時代，事情復雜了。交互的雙方，不再只是“人”和“機”，還有“機”和“機”。模型不僅要讀懂你的話，還要自己去調用瀏覽器、打開代碼解釋器、與外部環境打交道。交互次數也從幾次，飆升到幾十次、上百次。

在這個過程中，智能體每次調用工具所產生的輸入輸出其實很短，可能只需要幾百個token。但問題在于，隨著交互輪次增加，上下文會像滾雪球一樣越積越大，最終堆積成幾十萬token的龐然大物。

換句話說，智能體任務呈現出一種奇特的特征：多輪次、長上下文、短追加。

這種模式帶來的直接后果是——KV-Cache的命中率，常常高達95%以上。

什么是KV-Cache？用一個追劇的比喻就能明白：

假設大模型的推理過程，就像你在追一部連續劇，剛更新到第20集。

第20集的內容，是由前19集的劇情背景（也就是上下文），加上第20集的新劇情（新輸入）組成的。

如果沒有KV-Cache，就像你得了健忘癥，每次看新一集，都得把前面19集從頭到尾重看一遍，才能看懂第20集。

而有了KV-Cache，就好比你已經把前19集牢牢記在腦子里，只需要看新的那一集，就能無縫銜接，繼續追下去。

對于Transformer架構的模型來說，原理也是一樣的。

當智能體完成一次交互，準備處理下一個任務時，它所需要的絕大部分上下文，早在之前的交互中就已經計算過了。直接讀取緩存就好，只有極少量新內容需要重新計算。

所以，對計算機來說，KV-Cache的命中率當然是越高越好，因為命中就意味著“省事”。

但“省事”的背后，卻藏著一個新問題：

強大的GPU，算幾百個token的新一輪交互，可能還不到1毫秒。但在此之前，它需要先拿到那幾十萬token的“記憶”——也就是幾十GB的KV-Cache數據。

要想用KV-Cache“省事”，就得把這些數據，從硬盤或分布式存儲設備里，硬生生地搬運到GPU的顯存里。

這就像一個頂級大廚，炒一盤菜只需要1秒鐘，但他的助手買菜卻要花10秒鐘。

于是，智能體推理的最大瓶頸，已經不是算力，而是KV-Cache數據的輸入輸出速度。

02

現有架構：PD分離

為了提升推理性能，業內普遍采用的架構叫做“預填充-解碼分離”，簡稱PD分離。

簡單來說，在這種架構下，GPU集群被分成了兩個部門：

一個是預填充引擎，負責處理海量輸入文本，屬于計算密集型任務，擅長批量處理；

另一個是解碼引擎，負責一個字一個字地生成回答，對延遲極度敏感，但受限于內存。

在這樣的組織方式下，預填充引擎需要不斷從外部存儲里加載海量的KV-Cache數據，它的存儲網卡幾乎隨時處于過飽和狀態，堵得水泄不通。

與此同時，解碼引擎雖然也在正常運行，但它的存儲網卡大部分時間卻閑著沒事干。

一個倉庫里，進貨的大門被堵死，出貨的大門空空蕩蕩，整個物流線就這樣卡住了。

在算力成本高昂的今天，讓高性能芯片集群里的硬件資源閑置，簡直是極大的浪費。

最直觀的解決辦法，當然是把進貨的大門拓寬——給預填充引擎增加帶寬。但在實際操作中，這既不現實，成本也高得嚇人。

一個更聰明的辦法是：讓出貨的大門也來幫忙進貨——也就是讓閑置時的解碼引擎，分擔一部分“拉取數據”的任務。

03

來自DeepSeek、清華和北大的研究團隊在對現代AI數據中心的研究中得到了靈感。

類似英偉達的AI超級計算機DGX SuperPOD，其架構普遍具備一個重要的硬件特性：網絡隔離。

每個GPU一般配備兩套網卡：

一是計算網卡（Compute NIC）：專門用于GPU之間的跨節點卡間通信，通常配備多張總傳輸帶寬極大；

二是存儲網卡（Storage NIC）：用于讀寫硬盤或分布式存儲上的數據，通常只配備1張，總帶寬相對較小。

先前的架構采用的路徑是：讓預填充引擎直接通過自己的存儲網卡，從硬盤或分布式存儲中拉取KV-Cache數據。

如此一來，進貨的大門被堵住時，如果暫時沒有出貨，出貨的大門也開始進貨，所有引擎的存儲網卡帶寬都得到了有效利用，不對稱帶寬飽和問題得以解決。

04

流量調度與優先級博弈

雖然數據的流向多繞了一大圈，實際推理效率卻能大幅提升，想法看起來很美好。

但想要在以微秒級別運行的系統中落地，還有相當重量級的挑戰擺在眼前：

一是大量數據引入帶來的混亂：

讓解碼引擎幫著一起拉取歷史記憶數據（KV-Cache）確實是個好主意，但也會帶來巨大的風險。

GPU在推理過程中，需要頻繁地與集群中的其他GPU進行“集體通信”，完成數據的同步和結果的交換，這種通信對延遲極其敏感，慢一點都不行。

如果解碼引擎開始下載幾個GB的KV-Cache數據，火山噴發一般的數據流就可能擠占網絡帶寬，如果GPU之間的集體通信不幸被阻塞了，推理過程還是會卡住。

為了解決這種混亂的情況，研究團隊在網卡層面上設置了一個高速上的“交警”：

GPU之間的通信必須具有最高的優先級，它有走VIP通道的權力，無論如何都要保證正常運行、不許堵車；

拉取KV-Cache數據的任務則只有普通優先級，VIP通道沒車的時候它才能上路，只要GPU通信任務出現，它就得立刻避讓。

這位由計算網卡（CNIC）扮演的“交警”必須徹底隔絕兩種數據流量，確保解碼引擎拉取數據絕對不能影響GPU之間的集體通信。

二是如何動態分配任務：

人們的各種需求意味著智能體的推理任務總是動態變化的，有時請求多，有時請求少，有的請求長，有的請求短。

如果這位“交警”指揮不當，那就必然會幫倒忙。例如，預填充引擎的帶寬明明沒有飽和，卻非要繞遠路讓解碼引擎去拉取數據。

如何實時通過負載均衡（Load Balance）來動態分配任務，是這位“交警”必須面對的數學難題。

為此，研究團隊設計了自適應請求調度器，讓系統在運行時根據存儲網卡的隊列長度、GPU計算負載以及請求特征，動態選擇最優的數據加載路徑。

在引擎間，它不僅會監控每個GPU當下的計算負載，也就是待處理的token數量；還會同時監控底層分布式存儲在每個節點上的磁盤讀取隊列長度。

這樣，新的請求總會被智能分配到讀取隊列最短、GPU最閑的那個引擎進行加載。

在引擎內，由于多張GPU被綁定在一起干活，所有的GPU必須同時干完手上的活才能進入下一個環節，這就是注意力機制的同步。

為了防止拿到短任務的GPU“干等著”拿到長任務的GPU，它需要使用基于計算配額的批處理選擇算法，把長任務分割為短任務，這樣多張GPU計算注意力機制的時間就能基本對齊，盡快進入到下一個環節。

05

實測：吞吐量翻倍！

現在到了檢驗技術成果的時候。

研究團隊在基于InfiniBand高速互聯的英偉達Hopper GPU集群上，使用了DeepSeek-V3.2的660B參數版本、27B參數簡化版本和Qwen2.5-32B三種模型進行測試，并根據真實的智能體強化學習訓練軌跡進行評估。

在在線服務推理任務中，模擬的真實用戶會不斷涌入，系統需要在保證輸出第一個字符的延遲不超過4秒的情況下盡可能處理更多請求。

回顧從“大模型”到“智能體”的發展歷史，我們可以看到一條清晰的路徑：

最早期的挑戰是算力，如何更快計算神經網絡矩陣是頭號問題；

隨后內存登場，模型權重和KV-Cache占據了網絡傳輸帶寬；

現在智能體爆發，上下文成倍增長，挑戰又來到了輸入輸出和網絡層面。

毫不夸張地說，又是一次軟硬件協同設計的教科書級別示范。

大模型作為智能體的底層基礎設施，其內在計算邏輯正在悄無聲息地發生巨變。

不必因新產品遲遲未能發布而遺憾，因為技術已成為最牢固的基石，而日思夜想的DeepSeek-V4，已經指日可待。

更多>同類資訊

法拉第未來啟動EAI機器人交付，首個交付季出貨目標為200臺

03-02

03-02

03-02

03-02

03-02

賈躍亭：FF正式啟動EAI機器人交付，首個交付季目標200臺

03-02

銀河通用再融資25億元，估值領跑具身智能首位

03-02

榮耀CEO李健邀請何同學入職，被婉拒！

03-02

Siri 迎來“大腦”升級，蘋果擬推 Core AI 框架重塑開發者應用集成體驗

03-02

“國家隊”重倉加碼！中國電信入股面壁智能：注冊資本增至 71.3 萬元，共建大模型“算力+數據”新基建

03-02

美圖設計室接入Seedance2.0:一鍵生成高保真電商AI視頻

03-02

千問AI眼鏡3月8日現貨發售:到手價1997元起，全面接入千問APP

03-02

三星宣布 2030 年邁向“AI 工廠”，Agentic AI 成為核心大腦

03-02

從閉源壟斷到混合生態:Notion 集成 MiniMax M2.5開啟高性價比 AI 辦公新局

03-02

打破閉源壟斷！Notion 引入首個開源權重模型 MiniMax M2.5：聯手“國產之光”重塑 AI 工作流，主打一個“極致性價比”

03-02

全站最新

阿里·拉里賈尼是誰？英媒：哈梅內伊之后的新一代強權者

熱門內容

本欄最新

松延動力完成近10億B輪融資，攜“仿生蔡明”登春晚顯實力

優理奇機器人獲近3億融資，以全棧能力加速具身智能商業化進程

2026比亞迪技術革新：閃充、混動、智駕齊發力電動車體驗全面超越燃油車

華為MWC2026將推Agentic Core方案，以三層智能引擎驅動智能體網絡商用新程

MWC2026巴塞羅那：華為攜超節點產品亮相，技術創新共筑算力新生態

極狐全新阿爾法S5開啟預售！11.28萬起打造11萬級新能源轎跑新標桿

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

DeepSeek V4發布前，先邁出“關鍵一步”