“DeepSeek-V3 是在 Mistral 提出的架構上構建的。”
歐洲版 OpenAI CEO 此言一出,炸了鍋了。網友們的反應 be like:
這還是溫和派,還有更直接的吐槽:Mistral 在胡說八道些什么……
還沒吃上瓜的家人們別著急,咱們從頭捋一捋這事兒:
在最近一次訪談中,當被問到如何看待中國開源 AI 的強勢發(fā)展時,Mistral 聯(lián)合創(chuàng)始人、CEO Arthur Mensch 這樣回應:
中國在 AI 領域實力強勁。我們是最早發(fā)布開源模型的公司之一,而他們發(fā)現(xiàn)這是一個很好的策略。
開源不是真正的競爭,大家在彼此的基礎上不斷進步。
比如我們在 2024 年初發(fā)布了首個稀疏混合專家模型(MoE),DeepSeek-V3 以及之后的版本都是在此基礎上構建的。它們采用的是相同的架構,而我們把重建這種架構所需的一切都公開了。
Arthur Mensch 很自信,但網友們聽完表示:橋豆麻袋,這不對勁。
且不說 DeepSeek MoE 論文的發(fā)布時間和 Arthur Mensch 提到的 Mixtral 論文相差僅 3 天:
認真細扒起來,兩種架構實際上思路也并不相同。
并且此前,Mistral 3 Large 還曾被扒出基本上照搬了 DeepSeek-V3 采用的架構……
▲ 圖源








