華爾街的會(huì)議室里氣氛凝重,金融監(jiān)管機(jī)構(gòu)連夜召集各大銀行高層。這場緊急會(huì)議的焦點(diǎn),是尚未正式亮相的AI模型Claude Mythos——據(jù)稱其具備自主挖掘海量0day漏洞的能力,足以引發(fā)系統(tǒng)性網(wǎng)絡(luò)攻擊風(fēng)暴。然而隨著更多細(xì)節(jié)浮出水面,這場被渲染成"AI奧本海默時(shí)刻"的危機(jī),正逐漸顯露出人為夸大的痕跡。
技術(shù)團(tuán)隊(duì)對(duì)Mythos宣稱的"重大突破"進(jìn)行復(fù)核時(shí)發(fā)現(xiàn),其報(bào)告的數(shù)千個(gè)漏洞中,超過七成存在于早已停止維護(hù)的舊版軟件。更令人質(zhì)疑的是,所謂"高危0day漏洞"的判定依據(jù),僅來自198次人工復(fù)核樣本。安全研究員指出,這種基于極小樣本的數(shù)據(jù)外推法,在學(xué)術(shù)界和安全領(lǐng)域都缺乏可信度。
開源社區(qū)的測試結(jié)果進(jìn)一步動(dòng)搖了Mythos的神話。AISLE實(shí)驗(yàn)室使用參數(shù)僅36億的GPT-OSS-20b模型,成功識(shí)別出FreeBSD系統(tǒng)中的旗艦級(jí)漏洞。而具備51億參數(shù)的模型,則復(fù)現(xiàn)了潛伏27年的OpenBSD漏洞分析邏輯。這些開源模型的調(diào)用成本低至每百萬Token 0.11美元,與閉源大模型形成鮮明對(duì)比。
在虛假漏洞識(shí)別測試中,小模型展現(xiàn)出驚人優(yōu)勢。面對(duì)偽裝成SQL注入的Java代碼,DeepSeek R1等開源模型精準(zhǔn)追蹤數(shù)據(jù)流并識(shí)破偽裝,而GPT-5.4和Claude Sonnet 4.5等頂尖閉源模型卻集體誤判。這種反轉(zhuǎn)現(xiàn)象印證了網(wǎng)絡(luò)安全領(lǐng)域的核心結(jié)論:不存在永遠(yuǎn)領(lǐng)先的單體模型,能力分布呈現(xiàn)明顯的鋸齒狀特征。
傳奇黑客George Hotz公開質(zhì)疑這場安全恐慌的合理性。這位破解過iPhone和PlayStation 3的安全專家指出,當(dāng)前零日漏洞稀缺的根本原因是法律限制,而非技術(shù)難度。"如果每天發(fā)布一個(gè)漏洞直到新模型問世,就能讓這些公司停止渲染末日論調(diào)。"他在社交媒體上的尖銳批評(píng)引發(fā)廣泛共鳴。
性能評(píng)估數(shù)據(jù)同樣充滿爭議。雖然Claude Mythos在Epoch能力指數(shù)上超越前代Opus 4.6,但與GPT-5.4的差距不足5%。氣候投資人Ramez Naam分析指出,Mythos的進(jìn)步屬于線性迭代范疇,并未出現(xiàn)預(yù)期中的能力躍遷。更蹊蹺的是,Anthropic內(nèi)部報(bào)告與公開ECI數(shù)據(jù)存在顯著差異,暗示其評(píng)分體系存在不確定性。
用戶端的反饋則暴露出另一個(gè)維度的問題。大量使用者抱怨最新版Opus 4.6出現(xiàn)"降智"現(xiàn)象,在洗車方案等基礎(chǔ)任務(wù)中表現(xiàn)不如前代。AMD主管的日志分析顯示,Claude的中位思考長度從2200字符驟降至600字符,深度推理能力被明顯壓縮。為應(yīng)對(duì)80倍增長的API請求,用戶不得不重復(fù)調(diào)用,導(dǎo)致使用成本飆升。
資深訂閱用戶的長文控訴揭開了更多內(nèi)幕。Anthropic被指在核心模型尚未穩(wěn)定時(shí),將算力資源傾斜至開發(fā)"/buddy"等娛樂功能。收緊的Token使用限制與強(qiáng)制降級(jí)策略,暴露出其深陷算力困局的現(xiàn)實(shí)。這種"舍本逐末"的產(chǎn)品路線,與渲染超級(jí)AI威脅的營銷策略形成荒誕對(duì)照。
當(dāng)實(shí)驗(yàn)室里的末日預(yù)言遭遇開源社區(qū)的實(shí)證檢驗(yàn),當(dāng)用戶抱怨模型變笨與渲染的超級(jí)智能形成反差,這場由AI公司主導(dǎo)的安全恐慌正演變?yōu)樾袠I(yè)信任危機(jī)。技術(shù)真相與營銷話術(shù)的激烈碰撞,折射出人工智能領(lǐng)域亟待規(guī)范的競爭亂象。










