滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

GLM-5架構細節浮出水面：DeepSeek仍是繞不開的門檻

時間：2026-02-11 19:54:54 來源：硅基星芒編輯：快訊 IP：北京 發表評論無障礙通道

離春節不到一周，過去兩年的經驗告訴我們，國產AI新產品的爆發期又要來了。

Kimi K2.5在OpenRouter上一騎絕塵，Minimax也在官網上隱隱約約透露出M2.2的版本代號。

大家等得很焦急，智譜和DeepSeek年前是不是也得來點大動作？

這不，短短48小時內，三個獨立的技術平臺接連出現了與智譜新模型GLM-5相關的線索，形成了一條完整的信息鏈。

01 線索浮現：三平臺齊曝 GLM-5 蹤跡

2月7日，OpenRouter平臺悄悄上線了一款代號為“pony-alpha”的模型。

根據實際測試的結果，它的思維鏈風格與智譜的GLM系列高度吻合，比如：

遇到常規回答，它會以“嗯，......”為開頭進行思考；

遇到知識檢索任務，就分點列出“1.分析請求：...”；

遇到代碼任務，則會明確標注“用戶要求......”。

而技術社區在把這個模型投入實際開發后，發現它在貪吃蛇、Minecraft等復雜的代碼生成任務中表現相當穩健，但缺乏圖像等多模態輸入支持。

接下來的2月9日，vLLM推理框架倉庫出現了編號為34124的pull request，在代碼中首次明確出現了“GLM-5”標識。

更重要的是，代碼表明其實現邏輯直接復用了DeepSeek-V3系列模型采用的DSA（DeepSeek Sparse Attention，稀疏注意力）機制，并集成了MTP（Multi-Token Prediction，多標記預測）技術。

幾乎同時， Hugging Face transformers倉庫合并了編號為43858的pull request，正式引入了智譜的GlmMoeDsa架構。

代碼顯示，GLM-5采用了78層Transformer解碼器，前三層為稠密（Dense）結構，第四層及以后采用混合專家（MoE）架構，共配置256個專家網絡，處理單個token激活其中8個，并輔以1個共享專家以保證基礎能力穩定。

GLM-5的上下文窗口進一步擴展到了202K，詞表規模為154880，相比前代GLM-4.7提升有限。

02 架構解析：效率與規模的平衡

在過去兩年里，規模化法則（Scaling Law）的正確性已經得到充分驗證。

前段時間廣受好評的Kimi-K2.5也憑借國產模型中少見的1T參數量證明了“大就是好”。

不過，智譜創始人唐杰卻在2026年的AGI Next峰會上提出了一個不同的看法：

單純的模型擴展雖然是提升智能的有效路徑，但本質上是“人類最輕松的偷懶方式”。

回過頭來看即將誕生的GLM-5，若是按照社區揭曉的現有信息來看，其技術路線已經呈現出明顯的“效率優先”導向，而非繼續堆砌參數。

首先是混合專家（MoE）架構，這個詞在如今的AI時代應該已經不再陌生，它將模型參數分散至多個專業化的子網絡，也就是我們所說的“專家”，推理時可以只調用與任務最相關的少數專家。

GLM-5采用“256專家+8激活”的配置，在維持更大規模參數總量的同時，單次推理只需調用約3%的參數，對計算成本和響應延遲都實現了有效控制。

前3層保留稠密結構則是為了確保模型具備基礎語言理解能力的穩定性，以避免稀疏化帶來的表征斷裂風險。

然后是智譜選擇了已被DeepSeek驗證的稀疏注意力機制（DSA），而非自行研發同類機制。

前面已經提過，GLM-5對DSA的集成屬于架構復用，代碼中明確顯示GLM-5中的“GlmMoeDsaForCausalLM”類直接繼承自“DeepseekV2ForCausalLM”。

論文地址： https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

DSA機制是DeepSeek在五個月前開源的算法。

傳統大模型在處理長文本時，自注意力機制決定了每個詞都要與前面的所有詞計算一次注意力關系，計算量隨文本長度呈平方級增長，這就導致長文本的推理成本居高不下。

DSA提出了用精準篩選來代替全文掃描的新思路：對于每個詞，篩選出與之最相關的一部分詞并進行深度計算。

模型需要為每一個當前詞配備一個輕量級的索引器，用極簡的計算方式來快速評估當前詞與歷史詞之間的相關性，并輸出一個相關性分數。

由于使用ReLU代替Softmax作為激活函數能夠避免指數運算開銷，這個流程只需要消耗自注意力機制約5%的計算資源。

在得到相關性分數后，模型就可以僅選取最相關的k個歷史詞進行自注意力計算。論文中以128K上下文場景為例，取k=2048，計算量可以足足減少98%。

為了確保篩選詞匯的質量，DeepSeek當時就采用了分兩階段的訓練策略：先讓索引器在稠密注意力模式下學習“哪些詞更值得被關注”，等到輸出分布與自注意力對齊后再切換到稀疏注意力模式。

實際測試下來，在H800 GPU上處理長文本時使用DSA能夠降低約40%至50%的推理成本，而核心任務上的性能損失還不到1%。

因此，DSA機制不是簡單的跳過信息，而是用低成本的路由實現了計算資源的精準“按需分配”，使模型兼顧長上下文場景下的能力和效率。

最后則是多標記預測（MTP）技術，又是DeepSeek的經典代表技術之一。

這項推理加速機制從根本上改變了大模型token生成的模式。標準Transformer架構采用嚴格的自回歸方式：模型每次前向計算只會預測下一個詞，長文本場景下所需的計算次數可想而知。

MTP則允許模型在前向計算中一次預測多個連續的詞，以此減少迭代次數并提升計算效率。

單純把預測目標從一個詞變成多個詞肯定會提高出錯的概率，因此MTP的實現依賴于訓練階段的特殊設計：模型同時預測當前詞和后續多個詞的聯合分布，損失函數也被調整為覆蓋多個未來位置的預測目標，讓模型學會局部詞序列的生成規律。

聽起來有些抽象，用一個簡單的例子來說明：

在Python編程時，模型識別到用戶輸入了函數定義關鍵字“def”，傳統方式需要逐個字符預測后續的內容。

若是使用MTP，模型可能直接輸出“ calculate_sum(a, b)”這個完整代碼語句。

原因很簡單：代碼具有強語法規律性，函數名后必然跟隨括號和參數。模型在訓練中早已學會這種語法結構，所以才能安全地一次預測多個token。

實際測試結果顯示，在代碼、JSON、SQL等結構化文本生成任務中，MTP能夠將token生成速度提升2-3倍。

03 產業洞察：技術復用的趨勢不可阻擋

基于社區測試和技術架構推演的結果，我們大致可以確認：

GLM-5在代碼生成和邏輯推理兩個場景具有優勢和競爭力。

pony-alpha在Minecraft這個復雜項目中展現出的代碼能力，再加上對DSA等DeepSeek經典技術的復用實現了對長序列的高效處理，GLM-5有望在軟件開發輔助、算法設計等垂直領域形成差異化價值。

但短板也不容忽視。社區測試已經明確指出GLM-5暫無多模態能力，無法處理圖像、音頻等非文本輸入。

在當前國內主流大模型普遍向視覺語言聯合理解演進的背景下，這一缺失必然會限制GLM-5在AIGC創作場景中的適用性，并在春節期間進一步被放大。

更有趣的是，現有的幾條消息表面上是關注GLM-5帶來的新突破，實則句句離不開DeepSeek的經典技術。

希望幾天之后智譜能給我們帶來新的驚喜。

智譜AI選擇直接集成開源技術體現對研發效率重視的同時，也反映出國產大模型研發路徑的轉變：“開源+優化”比“閉源+自研”更務實。

AI行業即將告別參數規模的軍備競賽，專注于推理效率上的精細化運營。在控制計算成本的前提下，如何提升垂直表現將成為下一階段競爭的關鍵維度。

更多>同類資訊

螞蟻開源新一代全模態大模型Ming-Flash-Omni 2.0

02-11

阿維塔AVATR.OS 5.0.0版本推送：MoLA大模型助手上線

02-11

千問DAU達到7352萬，逼平豆包

02-11

電商AI客服擅自承諾顧客巨額折扣：商家面臨法律糾紛

02-11

DeepSeek突然測試新模型，上下文已到百萬級

02-11

螞蟻集團開源 Ming-Flash-Omni 2.0

02-11

螞蟻集團開源 Ming-flash-omni 2.0

02-11

Runway完成3.15億美元E輪融資，估值飆升至53億美元，推動下一代AI世界模型

02-11

螞蟻集團開源全模態大模型Ming-flash-omni 2.0 性能對標Gemini 2.5 Pro

02-11

臺積電將向員工發放450億元高額獎金人均超過50萬

02-11

2025年小微企業筑基、新興賽道發力、文旅升溫天眼查數據解碼經濟活力

02-11

瓜子二手車創始人楊浩涌：從互聯網“老將”到投資高手，斬獲超2億回報

02-11

眾擎啟動全球首個人形機器人格斗聯賽，以賽促研加速技術落地與人才孵化

02-11

具身智能“ChatGPT時刻”何時來？產業長跑考驗系統耐力

02-11

偉創電氣：以工控為基，憑一體化優勢領跑機器人核心零部件賽道

02-11

點擊查看更多 +

全站最新

48小時！xAI連失兩根“頂梁柱”

別只盯著AI，這個賽道即將加速

微軟探索高溫超導重構數據中心供電直指AI算力“電力瓶頸”

麥格理：首予文遠知行"跑贏大市"評級，目標價46港元/17.5美元

港股異動丨裕元集團跌超9%，1月經營收益同比跌12.5%

中國飛鶴春節獻映《東北真行》新篇章講述匠心與守護的時代故事

熱門內容

本欄最新

長城魏牌V9X來襲！近5米3大身軀，2.0T插混續航超千公里，實力幾何？

央視聚焦東風汽車：以創新智造引領，驅動中國汽車產業穩健邁向新征程

閔行新春沙龍：網絡創作者共探優質內容創作，共繪閔行發展新畫卷

理想汽車新突破：全新L9馬赫100雙芯片有效算力遠超英偉達Thor U

問界星光之夜余承東解讀品牌命名，大模型AI將升級老車主，銷量目標再沖刺

長城補齊產品短板！魏牌V9X官圖曝光，攜新技術入局綠牌全尺寸SUV賽道

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

GLM-5架構細節浮出水面：DeepSeek仍是繞不開的門檻