離春節不到一周,過去兩年的經驗告訴我們,國產AI新產品的爆發期又要來了。
Kimi K2.5在OpenRouter上一騎絕塵,Minimax也在官網上隱隱約約透露出M2.2的版本代號。
大家等得很焦急,智譜和DeepSeek年前是不是也得來點大動作?
這不,短短48小時內,三個獨立的技術平臺接連出現了與智譜新模型GLM-5相關的線索,形成了一條完整的信息鏈。
01 線索浮現:三平臺齊曝 GLM-5 蹤跡
2月7日,OpenRouter平臺悄悄上線了一款代號為“pony-alpha”的模型。
根據實際測試的結果,它的思維鏈風格與智譜的GLM系列高度吻合,比如:
遇到常規回答,它會以“嗯,......”為開頭進行思考;
遇到知識檢索任務,就分點列出“1.分析請求:...”;
遇到代碼任務,則會明確標注“用戶要求......”。
而技術社區在把這個模型投入實際開發后,發現它在貪吃蛇、Minecraft等復雜的代碼生成任務中表現相當穩健,但缺乏圖像等多模態輸入支持。
接下來的2月9日,vLLM推理框架倉庫出現了編號為34124的pull request,在代碼中首次明確出現了“GLM-5”標識。
更重要的是,代碼表明其實現邏輯直接復用了DeepSeek-V3系列模型采用的DSA(DeepSeek Sparse Attention,稀疏注意力)機制,并集成了MTP(Multi-Token Prediction,多標記預測)技術。
幾乎同時, Hugging Face transformers倉庫合并了編號為43858的pull request,正式引入了智譜的GlmMoeDsa架構。
代碼顯示,GLM-5采用了78層Transformer解碼器,前三層為稠密(Dense)結構,第四層及以后采用混合專家(MoE)架構,共配置256個專家網絡,處理單個token激活其中8個,并輔以1個共享專家以保證基礎能力穩定。
GLM-5的上下文窗口進一步擴展到了202K,詞表規模為154880,相比前代GLM-4.7提升有限。
02 架構解析:效率與規模的平衡
在過去兩年里,規模化法則(Scaling Law)的正確性已經得到充分驗證。
前段時間廣受好評的Kimi-K2.5也憑借國產模型中少見的1T參數量證明了“大就是好”。
不過,智譜創始人唐杰卻在2026年的AGI Next峰會上提出了一個不同的看法:
單純的模型擴展雖然是提升智能的有效路徑,但本質上是“人類最輕松的偷懶方式”。
回過頭來看即將誕生的GLM-5,若是按照社區揭曉的現有信息來看,其技術路線已經呈現出明顯的“效率優先”導向,而非繼續堆砌參數。
首先是混合專家(MoE)架構,這個詞在如今的AI時代應該已經不再陌生,它將模型參數分散至多個專業化的子網絡,也就是我們所說的“專家”,推理時可以只調用與任務最相關的少數專家。
GLM-5采用“256專家+8激活”的配置,在維持更大規模參數總量的同時,單次推理只需調用約3%的參數,對計算成本和響應延遲都實現了有效控制。
前3層保留稠密結構則是為了確保模型具備基礎語言理解能力的穩定性,以避免稀疏化帶來的表征斷裂風險。
然后是智譜選擇了已被DeepSeek驗證的稀疏注意力機制(DSA),而非自行研發同類機制。
前面已經提過,GLM-5對DSA的集成屬于架構復用,代碼中明確顯示GLM-5中的“GlmMoeDsaForCausalLM”類直接繼承自“DeepseekV2ForCausalLM”。
論文地址: https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf
DSA機制是DeepSeek在五個月前開源的算法。
傳統大模型在處理長文本時,自注意力機制決定了每個詞都要與前面的所有詞計算一次注意力關系,計算量隨文本長度呈平方級增長,這就導致長文本的推理成本居高不下。
DSA提出了用精準篩選來代替全文掃描的新思路:對于每個詞,篩選出與之最相關的一部分詞并進行深度計算。
模型需要為每一個當前詞配備一個輕量級的索引器,用極簡的計算方式來快速評估當前詞與歷史詞之間的相關性,并輸出一個相關性分數。
由于使用ReLU代替Softmax作為激活函數能夠避免指數運算開銷,這個流程只需要消耗自注意力機制約5%的計算資源。
在得到相關性分數后,模型就可以僅選取最相關的k個歷史詞進行自注意力計算。論文中以128K上下文場景為例,取k=2048,計算量可以足足減少98%。
為了確保篩選詞匯的質量,DeepSeek當時就采用了分兩階段的訓練策略:先讓索引器在稠密注意力模式下學習“哪些詞更值得被關注”,等到輸出分布與自注意力對齊后再切換到稀疏注意力模式。
實際測試下來,在H800 GPU上處理長文本時使用DSA能夠降低約40%至50%的推理成本,而核心任務上的性能損失還不到1%。
因此,DSA機制不是簡單的跳過信息,而是用低成本的路由實現了計算資源的精準“按需分配”,使模型兼顧長上下文場景下的能力和效率。
最后則是多標記預測(MTP)技術,又是DeepSeek的經典代表技術之一。
這項推理加速機制從根本上改變了大模型token生成的模式。標準Transformer架構采用嚴格的自回歸方式:模型每次前向計算只會預測下一個詞,長文本場景下所需的計算次數可想而知。
MTP則允許模型在前向計算中一次預測多個連續的詞,以此減少迭代次數并提升計算效率。
單純把預測目標從一個詞變成多個詞肯定會提高出錯的概率,因此MTP的實現依賴于訓練階段的特殊設計:模型同時預測當前詞和后續多個詞的聯合分布,損失函數也被調整為覆蓋多個未來位置的預測目標,讓模型學會局部詞序列的生成規律。
聽起來有些抽象,用一個簡單的例子來說明:
在Python編程時,模型識別到用戶輸入了函數定義關鍵字“def”,傳統方式需要逐個字符預測后續的內容。
若是使用MTP,模型可能直接輸出“ calculate_sum(a, b)”這個完整代碼語句。
原因很簡單:代碼具有強語法規律性,函數名后必然跟隨括號和參數。模型在訓練中早已學會這種語法結構,所以才能安全地一次預測多個token。
實際測試結果顯示,在代碼、JSON、SQL等結構化文本生成任務中,MTP能夠將token生成速度提升2-3倍。
03 產業洞察:技術復用的趨勢不可阻擋
基于社區測試和技術架構推演的結果,我們大致可以確認:
GLM-5在代碼生成和邏輯推理兩個場景具有優勢和競爭力。
pony-alpha在Minecraft這個復雜項目中展現出的代碼能力,再加上對DSA等DeepSeek經典技術的復用實現了對長序列的高效處理,GLM-5有望在軟件開發輔助、算法設計等垂直領域形成差異化價值。
但短板也不容忽視。社區測試已經明確指出GLM-5暫無多模態能力,無法處理圖像、音頻等非文本輸入。
在當前國內主流大模型普遍向視覺語言聯合理解演進的背景下,這一缺失必然會限制GLM-5在AIGC創作場景中的適用性,并在春節期間進一步被放大。
更有趣的是,現有的幾條消息表面上是關注GLM-5帶來的新突破,實則句句離不開DeepSeek的經典技術。
希望幾天之后智譜能給我們帶來新的驚喜。
智譜AI選擇直接集成開源技術體現對研發效率重視的同時,也反映出國產大模型研發路徑的轉變:“開源+優化”比“閉源+自研”更務實。
AI行業即將告別參數規模的軍備競賽,專注于推理效率上的精細化運營。在控制計算成本的前提下,如何提升垂直表現將成為下一階段競爭的關鍵維度。











