智譜近日正式推出并開源其最新旗艦?zāi)P虶LM-5.1,這一消息引發(fā)二級市場強(qiáng)烈反應(yīng)。港股開盤后,智譜股價迅速攀升,最高漲幅接近18%,觸及925港元關(guān)口,截至當(dāng)日收盤仍保持13.48%的漲幅。作為全球首個在真實(shí)工程場景中驗(yàn)證8小時持續(xù)工作能力的開源模型,GLM-5.1突破了傳統(tǒng)大模型以分鐘級交互為主的局限,標(biāo)志著AI模型從短時任務(wù)處理向長程自主工作的范式轉(zhuǎn)變。
該模型的核心突破在于其長程任務(wù)處理能力。在單次任務(wù)中,GLM-5.1可連續(xù)工作超8小時,期間自主完成規(guī)劃、執(zhí)行、測試、策略調(diào)整及錯誤修復(fù)等全流程,最終交付符合工程標(biāo)準(zhǔn)的完整成果。這種能力使其區(qū)別于現(xiàn)有模型,更接近人類工程師的"實(shí)驗(yàn)-分析-優(yōu)化"閉環(huán)思維。智譜方面強(qiáng)調(diào),模型在GPU內(nèi)核優(yōu)化等復(fù)雜場景中已展現(xiàn)出端到端自主工作能力,顯著降低了對專家經(jīng)驗(yàn)的依賴。
技術(shù)驗(yàn)證數(shù)據(jù)顯示,GLM-5.1在KernelBench Level 3基準(zhǔn)測試中表現(xiàn)卓越。面對50個真實(shí)機(jī)器學(xué)習(xí)計算負(fù)載,該模型在24小時不間斷迭代中完成多輪編譯-測試-分析-重寫循環(huán),最終實(shí)現(xiàn)3.6倍幾何平均加速比,較傳統(tǒng)torch.compile模式提升141%。這一成果證明AI模型已具備從代碼生成向系統(tǒng)級優(yōu)化的能力躍遷,為高性能計算領(lǐng)域突破工程效率瓶頸提供了新路徑。
在代碼能力維度,GLM-5.1繼續(xù)保持行業(yè)領(lǐng)先地位。其在SWE-bench Pro、Terminal-Bench、NL2Repo三大權(quán)威基準(zhǔn)測試中取得綜合平均分全球第三、國產(chǎn)第一、開源第一的佳績。特別在SWE-bench Pro真實(shí)軟件開發(fā)測試中,該模型首次超越海外頭部模型Opus 4.6,刷新全球最佳紀(jì)錄。這些突破使GLM-5.1成為首個在核心場景實(shí)現(xiàn)與海外頂尖模型性能對齊的國產(chǎn)大模型。
市場策略方面,智譜同步調(diào)整了GLM-5.1的定價體系。模型聚合平臺OpenRouter數(shù)據(jù)顯示,其Coding場景緩存命中Token價格上調(diào)10%,已接近Anthropic旗下Claude Sonnet4.6水平。這一調(diào)整標(biāo)志著國產(chǎn)大模型從價格戰(zhàn)轉(zhuǎn)向價值競爭的轉(zhuǎn)折點(diǎn)——一年前行業(yè)普遍通過降價90%爭奪市場,如今已具備以性能溢價錨定國際基準(zhǔn)的實(shí)力。
盡管取得突破,智譜坦言長程任務(wù)處理仍面臨多重技術(shù)挑戰(zhàn)。包括如何緩解復(fù)雜任務(wù)中的上下文焦慮、如何維持?jǐn)?shù)千次工具調(diào)用后的執(zhí)行一致性、如何突破局部最優(yōu)解陷阱,以及在缺乏明確數(shù)值指標(biāo)的任務(wù)中建立可靠自評估機(jī)制等。公司表示,GLM-5.1是該技術(shù)路線的重要里程碑,未來將持續(xù)優(yōu)化模型的有效工作時長與自主進(jìn)化能力。










