據(jù)外媒The Information報道,有兩位直接參與相關(guān)計劃的知情人士透露,人工智能公司DeepSeek計劃在2月中旬春節(jié)前后推出其新一代模型DeepSeek-V4,不過具體發(fā)布時間可能會根據(jù)實際情況有所調(diào)整。
DeepSeek-V4在編碼能力方面表現(xiàn)突出,內(nèi)部初步測試結(jié)果顯示,該模型在編碼領(lǐng)域的表現(xiàn)已超越Anthropic的Claude、OpenAI的GPT系列等現(xiàn)有其他模型。這一成果標(biāo)志著DeepSeek在人工智能技術(shù)領(lǐng)域的又一次重大進(jìn)步。
這兩位知情人士還進(jìn)一步介紹了V4模型的核心突破點。其一,在超長代碼提示詞的處理與解析上,V4模型實現(xiàn)了關(guān)鍵性的技術(shù)突破。這意味著它能夠更高效、準(zhǔn)確地理解和處理復(fù)雜的代碼提示信息,為開發(fā)者提供更優(yōu)質(zhì)的輔助。其二,在整個訓(xùn)練流程的全階段,V4模型的數(shù)據(jù)模式理解能力不僅沒有出現(xiàn)性能衰減,反而相較于前代模型有了顯著提升。
在人工智能模型的訓(xùn)練過程中,通常需要模型反復(fù)從海量數(shù)據(jù)集中學(xué)習(xí)知識。然而,在實際操作中,隨著訓(xùn)練輪次的不斷增加,模型對數(shù)據(jù)模式的捕捉能力往往會出現(xiàn)衰減現(xiàn)象。對于擁有大量AI芯片儲備的開發(fā)者來說,解決這一問題的常規(guī)做法是通過增加訓(xùn)練輪次來彌補(bǔ)性能損耗。但DeepSeek-V4成功克服了這一難題,展現(xiàn)出其獨特的技術(shù)優(yōu)勢。
對于用戶而言,DeepSeek-V4的這些技術(shù)突破將帶來實實在在的體驗提升。在實際使用中,用戶很可能會發(fā)現(xiàn)V4生成的答案邏輯更加清晰、結(jié)構(gòu)更加規(guī)整。這充分表明該模型具備更強(qiáng)的深度推理能力,在處理復(fù)雜任務(wù)時的可靠性也將得到大幅提升,能夠為用戶提供更準(zhǔn)確、更有價值的信息。
有網(wǎng)友注意到,在DeepSeek-V3.2的論文中提到,該公司使用了大模型競技場平臺(Chatbot Arena)進(jìn)行人類偏好評估。基于這一信息,外界推測或許可以更早地在大模型競技場上對DeepSeek-V4模型進(jìn)行測試,提前感受其性能和特點。
更多詳細(xì)信息可參考鏈接:https://www.theinformation.com/articles/deepseek-release-next-flagship-ai-model-strong-coding-ability?rc=jn0pp4











