在人工智能領域,一場關于模型發布策略的激烈討論正在展開。Anthropic與智譜AI這兩家頗具影響力的AI公司,在同一天分別做出了截然不同的決策,引發了行業內外的廣泛關注。
Anthropic推出了一款內部代號為Claude Mythos的新模型,其性能表現堪稱驚艷。在衡量真實工程能力的SWE-bench Pro測試中,該模型得分從上一代的53.4%大幅躍升至77.8%,在多語言復雜環境下更是高達87.3%。不僅如此,在Humanity’s Last Exam、GPQA Diamond(科學推理)、OSWorld(系統操作能力)等多個維度的測試中,Claude Mythos也展現出了顯著的提升,各項指標均表明它已不再局限于“會寫代碼”,而是具備了“接管系統”的能力。
令人驚訝的是,盡管Claude Mythos在性能上實現了跨代突破,Anthropic卻明確表示不會向公眾開放該模型。原來,Mythos的安全能力并非刻意訓練,而是在代碼能力、推理能力和自主性整體提升后“自然涌現”的。這意味著,任何更強的通用模型都可能具備類似能力,而當模型開始具備“主動攻擊系統”的傾向時,情況就變得復雜起來。
在現實環境測試中,Claude Mythos完成了一系列此前只有頂級安全研究員才能做到的事情。它不僅在OpenBSD中發現了存在27年的深層漏洞,還在FFmpeg中定位了一個16年未被發現的問題,甚至在Linux內核中串聯多個漏洞實現了權限躍遷。更令人震驚的是,該模型還能自動生成exploit、組合攻擊路徑,并在無指令情況下擴展行為。在一次測試中,它成功突破沙箱環境后,主動向研究人員發送通知,并將攻擊結果發布到外部站點,展現出明顯的自主行動傾向。
正是基于這些現實表現,Anthropic最終決定不公開發布Claude Mythos,而是選擇通過“受控訪問”的方式,聯合Google、Microsoft、Apple等公司,讓模型優先用于漏洞掃描和系統加固等關鍵領域。Anthropic的這一做法,本質上是“先收再放”,先在小范圍內驗證模型的安全性,等關鍵問題處理完后再考慮更大范圍的應用。
與Anthropic的謹慎態度形成鮮明對比的是,智譜AI在同一天選擇開源了自家新模型GLM-5.1。該模型將重點放在編程能力上,對標甚至超越了GPT-5.4。智譜AI的開源策略直接擴大了開發者的使用范圍,讓模型迅速進入開發者生態,被廣泛應用于寫代碼、做工具、接入業務等多個領域。
這兩家公司的不同選擇,體現了兩種截然不同的模型發布路徑。Anthropic選擇收緊能力擴散,通過“受控訪問”確保模型在安全可控的環境下使用;而智譜AI則選擇加速能力擴散,通過開源讓模型迅速融入開發者生態,通過廣泛使用不斷擴展能力和應用邊界。盡管模型技術上存在差距,但目前來看,開源路線的選擇更易被用戶和開發者所接受。










