人工智能領域迎來重要突破,一款名為GLM-5的新型基礎模型正式發布。這款模型通過引入創新的稀疏注意力機制和異步強化學習框架,在編程、推理和智能體能力方面實現了顯著提升,標志著人工智能開發范式從"氛圍編程"向"智能體工程"的重大轉變。
GLM-5在技術架構上進行了全面革新。研發團隊開發的DeepSeek Sparse Attention(DSA)機制,通過動態選擇重要token進行注意力計算,在保持長上下文處理能力的同時,將計算成本降低了近50%。模型參數規模擴展至7440億,訓練數據量達到28.5萬億token,創下開源模型新紀錄。針對智能體任務特點,團隊構建了全新的異步強化學習基礎設施,將生成過程與訓練過程解耦,使后訓練迭代效率提升3倍以上。
在基準測試中,GLM-5展現出卓越性能。在Artificial Analysis Intelligence Index v4.0評測中取得50分,成為首個達到該分數的開源模型。在LMArena平臺的文本和代碼競技場中均位列開源模型首位,整體表現與Claude Opus 4.5等頂尖閉源模型相當。特別在處理真實軟件工程任務時,GLM-5在SWE-bench Verified等基準上超越所有開源基線,接近閉源模型水平。
智能體能力是GLM-5的核心突破。通過提出的異步Agent強化學習算法,模型在長周期任務中的表現得到質的提升。在模擬經營自動售貨機的Vending-Bench 2測試中,GLM-5獲得4432美元的最終賬戶余額,逼近Claude Opus 4.5的表現。新開發的上下文管理策略使模型在BrowseComp基準上的準確率提升至75.9%,超越所有配備上下文管理的開源模型。
研發團隊構建了全面的評估體系驗證模型實用性。CC-Bench-V2基準測試顯示,GLM-5在前端開發任務中達到98.0%的構建成功率,檢查項成功率與Claude Opus 4.5相當;在后端開發任務中,Pass@1指標與Claude Opus 4.5持平;在長程任務評估中,代碼庫探索能力顯著優于對比模型。這些結果證明GLM-5能夠穩定處理真實開發場景中的復雜工作流。
GLM-5的另一個重要特性是全面適配國產算力生態。通過與國內主流芯片廠商深度合作,模型原生支持華為昇騰、摩爾線程、海光等七大硬件平臺。針對國產芯片特點優化的量化策略和算子融合技術,使單臺國產服務器即可部署7500億參數模型,長序列處理成本降低50%,性能達到國際主流GPU集群水平。
在真實場景通用能力評估中,GLM-5在機器翻譯、多語言對話、指令遵循等五個維度均實現提升。內部測試顯示,模型在中文到小語種翻譯、復雜指令理解等任務上的表現優于前代版本。特別在工具調用能力方面,通過分析生產環境中的失敗案例構建的專項基準測試顯示,GLM-5的工具選擇準確率和參數正確率均有顯著提高。







