岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear旗下自媒體矩陣:

智譜與Minimax交出“大招”之后,DeepSeek“平A”了一下

   時間:2026-02-13 18:04:39 來源:硅基星芒編輯:快訊 IP:北京 發表評論無障礙通道
 

誰能想到,僅僅一個晚上,國內三大AI巨頭接連發布了自己的新模型?

DeepSeek、智譜和MiniMax無縫銜接上演了這出好戲,AI愛好者們在這個春節可是有的忙了。

在算力緊缺、同質化加劇的當下,國產大模型逐漸走上差異化的路徑:

有人押注超長文本的記憶邊界,有人攻堅智能體的工程化落地,也有人選擇以輕量和效率闖進企業級市場。

01 DeepSeek:百萬級上下文定義長文本處理邊界

首先是產品端沉寂已久但全球萬眾矚目的DeepSeek悄悄在官網和移動端開啟了新模型的灰度測試。

盡管官方尚未發布正式技術文檔,但社區普遍推測該模型可能是即將發布的DeepSeek-V4-Lite版本。

根據目前流傳的消息,該模型的參數規模可能只有200B左右,且并未使用DeepSeek與北大聯合研發的Engram條件記憶機制。

不過,我們仍然可以在簡單的實測中發現新版本的核心突破:100萬(1M)token的超長上下文窗口。

這一參數已經遠超前代版本以及部分國內主流大模型32K-128K的限制,單次交互可以處理相當于500頁A4文檔的文本量,能夠處理長文檔分析、跨章節推理等生活中頻繁應用的場景。

超長上下文的實證檢驗:大海撈針

“大海撈針”測試是AI界評估長文本能力的行業標準方法之一,通過在超長文本中隨機插入特定信息,要求模型精準定位并回答相關問題,以此檢驗上下文窗口的實際有效性。

根據技術社區的測試結果,DeepSeek的新模型在100萬token長度下仍然能夠保持60%以上的準確率,準確率曲線在20萬token以內近乎水平,此后才開始出現較為平緩的衰減,優于同期測試的Gemini系列模型。

若上述測試結果真實可靠,則表明DeepSeek的新模型不僅確實支持百萬級上下文,還具備較高水平的有效上下文利用率。模型能夠真正理解并利用超長文本中的信息,而不僅僅是技術層面上的信息接收。

在技術社區中,還有一位測試者的結果進一步佐證了這一強大能力。

模型對稀疏信息能夠準確定位并還原上下文,即使出現頻次極低的角色也從未遺漏。因此,在20萬token量級的實際文檔處理中,DeepSeek的新模型已經展現出可靠的細粒度信息檢索能力。

能力邊界:專注文本賽道

在經典的“鵜鶘騎自行車”測試中,DeepSeek輸出的矢量圖形出現了結構混亂與幾何失真的現象。

這一測試要求模型在零樣本的情況下生成稀有組合場景的SVG圖像代碼,檢驗模型對結構化語言的精確控制能力。

而結果表明,模型在涉及幾何坐標、空間關系的代碼生成任務上存在局限。

這個結果與DeepSeek的技術定位直接相關,并不出人意料:和前代版本一樣,新模型延續了純文本模型的定位,研發重心都放在了百萬token級上下文的文本建模和信息壓縮,而非跨模態的視覺結構推理或精確代碼生成。

事實上,在算力資源有限的約束下,放棄對SVG等結構化圖形語言的優化,轉而加強長文本處理能力,正好符合國產AI“重在應用”的發展方向,并有助于形成差異化技術路徑。

DeepSeek的新模型在這項測試中體現出的不足并非能力缺陷,而是資源分配的必然取舍。

最后,根據技術社區和社媒平臺流傳的相關消息,DeepSeek可能還有一個參數規模突破1T的超大模型正在訓練中,雖然大概率不會在2月發布,但多模態功能可能會得以落實。

02 智譜:智能體工程化與算力緊缺的事實

如果說DeepSeek放出來的輕量級模型是一次平A,那么緊隨其后發布GLM-5的智譜就是實打實放出了大招。

GLM-5的發布其實并不意外,幾天前pony-alpha的出現以及技術架構的前瞻(GLM-5架構細節浮出水面:DeepSeek仍是繞不開的門檻)都表明智譜已做好推出新產品的準備。

不過,在官方的發布公告中有一個很讓人好奇的觀點:智譜將其技術敘事從“Vibe Coding”(氛圍編程)推向了“Agentic Engineering”(智能體工程化)。

文字意義上,這一轉變表明智譜的大模型能力正在開始遷移:從過去的生成代碼片段和前端Demo,到完成端到端的復雜系統性工程任務。

接下來,我們一起來看看GLM-5的實際能力如何。

可靠性的飛躍

首先是Artificial Analysis的評測榜單:

智能程度全球第4,編程能力全球第6,代理能力全球第3的開源模型!

說實話,剛看到這個榜單的時候我都有些被嚇到了。

這還是我第一次看到國產模型憑借全方位的強大能力位列排行榜如此靠前的位置,而且與Gemini、GPT、Claude等世界頂級閉源模型的差距只在毫厘之間,證明智譜宏大的技術敘事絕非空口無憑。

根據官方發布的數據,GLM-5的參數規模總量為744B,激活參數為40B,相比前代模型GLM-4.7參數規模翻了一倍以上,預訓練數據也從23T增加至28.5T。

Scaling Law仍在發揮作用,更多的參數和數據為GLM-5在復雜任務處理中提供了更堅實的語義基礎。

技術層面和先前文章中分析的基本一致,模型首次集成了DeepSeek的稀疏注意力機制(DSA),在維持長文本處理效果的同時追求更高效率,顯著降低了部署成本。

同時,GLM-5還引入了自研的Slime異步強化學習框架,使模型能夠在與用戶的長期交互中持續學習知識,提升任務規劃的連貫性和穩定性。不過,智譜尚未發布這一技術的論文,待發布后會進行進一步解讀。

更關鍵的技術突破在于可靠性指標的飛躍:在AA-Omniscience幻覺率測試中,GLM-5將幻覺率從前代版本GLM-4.7的90%直接壓縮至34%,打破Claude 4.5 Sonnet的紀錄成功登頂。

頻繁產生幻覺的模型,不可能勝任系統化的復雜任務。GLM-5在生成事實性內容的時候明顯更加謹慎,大幅降低了用戶最抵觸的編造信息風險,這也為智譜宣稱的“智能體工程化”落地提供了必要的保證。

編程與代理能力的檢驗

在編程能力和代理能力上,GLM-5在SWE-bench Verified、Terminal-Bench 2.0等主流基準測試中均取得高分,已經達到開源模型領先水平。

根據內部測試結果,GLM-5在進行前端構建任務時,成功率高達98%;后端重構和任務規劃場景中,成功率相比前代版本GLM-4.7也提升了超過20%,實際使用體驗接近Claude Opus 4.5。

GLM-5已經能夠自主拆解用戶需求并協調多工具鏈,從而妥善處理依賴關系并完成端到端的任務交付。例如,用戶輸入自然語言需求后,模型即可直接生成可部署的橫板解謎游戲和論文檢索應用。

而在Vending Bench 2模擬經營測試中,模型構建的智能體運營自動售貨機在1年之內賺到了4432美元,展現出對資源分配、市場波動和長期目標一致性的把控能力。

GLM-5體現出的這些能力,不約而同地指向了智能體工程化的核心需求:模型必須在多步驟、跨工具、長時間跨度的任務中保持邏輯的連貫性和執行的穩定性。

慷慨的開源與算力缺乏的事實

GLM-5性能之強大有目共睹,更可貴的是智譜選擇以MIT License協議將GLM-5完整開源,同步發布于Hugging Face和魔搭社區,此后還接入了TRAE國內版和Ollama,直接“拆除”了開發者的使用門檻。

與此同時,作為“國產大模型之光”,模型與華為昇騰、摩爾線程、寒武紀等國產芯片平臺深度適配,通過優化底層算子提升推理性能,國產算力生態新增一大支柱。

但是,如此慷慨的開源舉措卻與商業端的資源緊缺形成了鮮明的對比。

但是,與GLM-5發布同時而來的消息,還有智譜GLM Coding Plan的價格上調:套餐漲幅30%以上,取消首購半價優惠并新增周額度限制。

此前三款訂閱服務的季度價格為:

GLM Coding Lite:60元/季

GLM Coding Pro:300元/季

GLM Coding Max:600元/季

更為關鍵的是,官方此前發布公告稱GLM-5在商用API層面僅對MAX套餐用戶開放,待到模型資源更迭完成后Pro套餐用戶才可使用GLM-5,至于Lite套餐用戶則無明確說明。

智譜在收到大量針對該問題的反饋后,工作人員迅速在技術社區和平臺回復,坦承算力資源極為緊張,“并發不足已持續1個月”、“限購20天仍無法滿足需求”等問題尚未解決。Pro套餐用戶在未來2-3日內即可使用GLM-5,Lite套餐用戶仍無明確期限。

除此之外,GLM-5的API價格也是國內頂尖,輸出價格甚至是DeepSeek-V3.2的6倍:

智譜面臨的現實困境也是國產大模型廠商共有的:技術迭代速度已經遠超基礎設施供給能力。

開源釋放權重已經快速構建起國產模型的生態影響力,但商用服務的穩定性仍然嚴格受制于GPU集群規模。

智譜的慷慨開源和商用限流,既是技術自信的展示,也是對算力瓶頸的無奈妥協。想要讓國產大模型進入工程化階段,基礎設施的支撐能力仍然是最核心的問題。

03 Minimax:輕量級架構與效率優先

同樣交出大招的不止有智譜,還有與之幾乎同時上市的MiniMax。

不過,與DeepSeek類似,MiniMax官方也沒有發布任何新模型的公告和技術文檔,而是悄悄上線了新模型MiniMax-M2.5,并通過媒體報道傳遞了核心信息:

MiniMax-M2.5定位為全球SOTA編程模型,直接對標Claude Opus 4.6,并能在工作重點核心生產力場景中達到行業領先水平。

據稱M2.5最顯著的技術特征是僅10B激活參數量的輕量化設計。在當前國產大模型普遍采用數百億至上千億參數的背景下,這一規模顯得十分克制。

盡管如此,M2.5仍然能支持100 TPS的高吞吐推理,速度超過國際頂尖模型,同時在顯存占用和推理能效比上具備優勢。若數據真實,在同等硬件條件下M2.5可支持更高并發的實時編程任務,有效降低部署成本。

雖然仍無權威性測試結果,但社區的第三方實測提供了有限驗證。在一項自發組織的代碼修復能力測試中,M2.5在多平臺環境下位列第九,通過率為61.5%。而作為參照的GPT-5.3 Codex以73.1%的通過率位居榜首,Claude Opus 4.6的通過率為65.4%。

考慮到M2.5的激活參數規模遠比其他模型要少,該模型在單位算力下的任務完成效率具備一定競爭力。但是否能達到全球SOTA水平,則需要等到技術文檔發布后進一步驗證。

在算力資源普遍緊張的行業背景下,MiniMax選擇以輕量級模型切入已經接近飽和的編程賽道,推測是為了規避大規模參數模型帶來的部署成本壓力,并通過高吞吐設計搶占企業級的實時編程場景。

不過,缺少透明的技術細節讓用戶難以評估其能力邊界,能否實現差異化競爭優勢將取決于實際用戶體驗和價格。

 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 成人区视频| 污污视频免费看 | 免费特级毛片 | 日韩一区二区三区四区五区六区 | 色婷婷狠狠操 | 综合99| 在线中文字幕日韩 | 欧美一级黄 | 欧美野战 | 免费污片在线观看 | 欧美大片免费看 | 国产探花一区二区 | 中文字幕23 | 小萝莉末成年一区二区 | 天天拍夜夜操 | 成人小视频免费 | 午夜一区二区三区在线观看 | 亚洲国产婷婷 | 国产亚洲精品久久久久久 | 国产成人区 | 亚洲激情一区 | 日本精品在线播放 | 美女在线播放 | 午夜精品免费观看 | 97超碰超碰 | 毛片视频免费 | 国产簧片 | 久久午夜视频 | 九九九网站 | 日本色网址 | 亚洲免费av一区二区 | 日本高清视频一区二区 | 夜夜爽影院 | 亚洲第一综合网站 | 天天操天天操 | 亚洲一区天堂 | 精品国产自 | 国产一区二区免费视频 | 日韩一级av毛片 | 中文字幕一区二区三区视频 | 午夜毛片 |