近日,一款名為DeepSeek V4的開源大模型引發(fā)AI圈高度關(guān)注。據(jù)多方消息透露,該模型在編程、數(shù)學(xué)推理等核心能力上實現(xiàn)重大突破,甚至被部分網(wǎng)友稱為“首個能比肩頂尖閉源模型的開源方案”。盡管官方尚未正式發(fā)布,但泄露的基準(zhǔn)測試數(shù)據(jù)已在社區(qū)引發(fā)熱議。
泄露的測試結(jié)果顯示,DeepSeek V4在SWE-bench Verified編程基準(zhǔn)上取得83.7%的成績,超越Claude Opus 4.5的80.9%和GPT-5.2的80%。該基準(zhǔn)主要評估模型修復(fù)真實開源項目代碼的能力,高得分意味著模型能更精準(zhǔn)理解復(fù)雜代碼庫的上下文關(guān)系。若數(shù)據(jù)屬實,這將是開源模型首次在該指標(biāo)上登頂全球榜首。
除編程能力外,其他維度的測試數(shù)據(jù)同樣驚人。在AIME 2026數(shù)學(xué)競賽基準(zhǔn)中,V4取得99.4%的接近滿分成績;IMO Answer Bench國際奧數(shù)基準(zhǔn)達(dá)88.4%;FrontierMath前沿數(shù)學(xué)推理基準(zhǔn)雖僅23.5%,但已是GPT-5.2的11倍。這些數(shù)據(jù)表明,該模型可能在代碼生成、競賽數(shù)學(xué)和復(fù)雜推理三大領(lǐng)域同時刷新紀(jì)錄。
技術(shù)細(xì)節(jié)方面,V4被曝采用100萬token的超長上下文窗口,理論上可一次性處理整部《三體》體量的文本。配合全新的Engram條件記憶機(jī)制,模型能實現(xiàn)近乎無限的上下文檢索能力,這在處理大型代碼庫或分布式系統(tǒng)時具有顯著優(yōu)勢。有開發(fā)者測試發(fā)現(xiàn),V4能準(zhǔn)確理解代碼文件中變量修改對其他文件的連鎖影響,這種“倉庫級推理”能力此前僅在閉源模型中有所體現(xiàn)。
成本優(yōu)勢或成為另一殺手锏。據(jù)行業(yè)分析,DeepSeek V4的API定價可能比OpenAI同類產(chǎn)品低20-40倍。若結(jié)合其開源特性,將極大降低中小企業(yè)部署先進(jìn)AI的開發(fā)門檻。此前DeepSeek V3已通過極低成本證明,開源模型完全具備與專有模型競爭的實力。
然而,部分測試數(shù)據(jù)的真實性已遭質(zhì)疑。Epoch AI機(jī)構(gòu)證實,F(xiàn)rontierMath基準(zhǔn)的評估權(quán)限僅開放給自身和OpenAI,第三方數(shù)據(jù)存在偽造可能。另有專家指出,在官方評分系統(tǒng)中,AIME基準(zhǔn)的最高分應(yīng)為120/120(100%),而泄露數(shù)據(jù)中的99.4%存在統(tǒng)計異常。這些爭議為V4的實際性能蒙上陰影。
模型發(fā)布時間也出現(xiàn)矛盾信息。最初傳聞稱V4將于春節(jié)期間(2月17日)上線,但最新消息顯示官方可能推遲至三月底。有開發(fā)者在DeepSeek官網(wǎng)和移動應(yīng)用中發(fā)現(xiàn)灰度測試痕跡,其參數(shù)規(guī)模約2000億,但未采用Engram記憶機(jī)制。這種“l(fā)ite版”測試或許是為正式發(fā)布積累數(shù)據(jù)。
盡管爭議不斷,V4的技術(shù)方向仍獲業(yè)內(nèi)認(rèn)可。meta科學(xué)家Zhuokai Zhao分析指出,當(dāng)前前沿稀疏專家模型已形成“MLA+sigmoid稀疏激活+共享專家”的標(biāo)準(zhǔn)架構(gòu),設(shè)計空間基本收斂。DeepSeek的突破在于將超長上下文與高效記憶機(jī)制結(jié)合,這種創(chuàng)新可能重新定義AI代碼生成的技術(shù)范式。
在overchat.ai等第三方平臺上,更多細(xì)節(jié)被逐步披露:V4將延續(xù)開源傳統(tǒng)發(fā)布開放權(quán)重;其訓(xùn)練過程通過算法優(yōu)化顯著減少性能衰減;輸出結(jié)果的邏輯嚴(yán)密性獲得內(nèi)部測試者高度評價。這些特性若能兌現(xiàn),將解決當(dāng)前大模型在長文本處理、訓(xùn)練穩(wěn)定性和推理可靠性等方面的核心痛點。
隨著發(fā)布窗口臨近,AI社區(qū)對V4的期待與質(zhì)疑持續(xù)發(fā)酵。支持者認(rèn)為這將是開源模型顛覆閉源生態(tài)的轉(zhuǎn)折點,批評者則強(qiáng)調(diào)“沒有復(fù)現(xiàn)細(xì)節(jié)的基準(zhǔn)測試毫無意義”。這場爭論背后,折射出整個行業(yè)對AI技術(shù)路線選擇的深層思考:在性能競賽與可解釋性、開源生態(tài)與商業(yè)壁壘之間,究竟何種模式更能推動技術(shù)普惠?











