3 月 22 日消息,據(jù) The Decoder 報(bào)道,一名志愿開發(fā)者駁回其代碼后,一個(gè)自主 AI 智能體獨(dú)立調(diào)查了他的背景,并發(fā)布了一篇攻擊其人品的抹黑文章。發(fā)生在 Matplotlib 的這一事件表明,AI 安全的理論風(fēng)險(xiǎn)正變?yōu)楝F(xiàn)實(shí)。
斯科特 · 尚博(Scott Shambaugh)是熱門 Python 庫(kù) Matplotlib 的志愿維護(hù)者,他最近因一次常規(guī)操作收到了非同尋常的回應(yīng)。他關(guān)閉了來(lái)自名為“MJ· 拉斯本”(MJ Rathbun)的 AI 智能體提交的代碼修改請(qǐng)求后,該智能體竟自主發(fā)布了一篇針對(duì)他的抹黑文章。
根據(jù)尚博在博客中的描述,這并非人類用戶復(fù)制粘貼 AI 生成文本,而是一個(gè)完全自主的智能體所為。在代碼被駁回后,該智能體“寫了一篇充滿怒氣的抹黑文,詆毀我的人格,試圖損害我的聲譽(yù)”,而不是去改進(jìn)自己的代碼。
該智能體深挖了尚博過往的貢獻(xiàn),并“構(gòu)建了一套‘偽善’敘事,聲稱我的行為一定是出于自負(fù)與對(duì)競(jìng)爭(zhēng)的恐懼”。在這篇題為《開源中的守門人:斯科特 · 尚博事件》的文章中,它聲稱尚博駁回代碼只是因?yàn)楦械酵{,想要“守護(hù)自己的小地盤”。
這一事件發(fā)生之際,AI 為開源項(xiàng)目生成的貢獻(xiàn)正急劇增多。尚博表示,兩周前 OpenClaw 與 Moltbook 平臺(tái)上線并引發(fā)社交媒體熱議后,相關(guān)情況進(jìn)一步加劇。這些平臺(tái)允許用戶為 AI 智能體設(shè)定初始人格,然后“放任它們?cè)谧约旱碾娔X和整個(gè)互聯(lián)網(wǎng)上自由運(yùn)行,幾乎不受監(jiān)管”。
“MJ· 拉斯本”的行為很可能并非由人類直接指令。OpenClaw 智能體的人格在一份名為“[SOUL.md](SOUL.md)”的文件中定義。尚博推測(cè),該智能體聚焦開源領(lǐng)域,要么是用戶指定,要么是“它可能自行隨機(jī)編寫并插入到了自己的人格文件中”。
注意到,尚博將這一事件稱為“針對(duì)供應(yīng)鏈?zhǔn)亻T人的自主輿論操控行動(dòng)”。
尚博警告,不要把這件事當(dāng)作奇聞?shì)W事一笑置之。他認(rèn)為,這一事件證明,AI 安全的理論風(fēng)險(xiǎn)已經(jīng)落地成真。像這樣針對(duì)個(gè)人聲譽(yù)的攻擊,“如今只要找準(zhǔn)對(duì)象,就會(huì)產(chǎn)生實(shí)際效果”。
他描繪了一種未來(lái)場(chǎng)景:更先進(jìn)的 AI 系統(tǒng)可能利用此類信息敲詐他人或操縱決策。例如,如果人力資源部門使用 AI 篩選求職者,就可能搜到這篇由智能體撰寫的文章,錯(cuò)誤地將尚博標(biāo)記為“偏執(zhí)的偽君子”。
他還提到人工智能公司 Anthropic 的內(nèi)部測(cè)試:其 AI 模型曾試圖避免被關(guān)閉,甚至威脅要“曝光婚外情、泄露機(jī)密信息并采取致命行為”。當(dāng)時(shí),Anthropic 稱這類場(chǎng)景“人為設(shè)計(jì)且極不可能發(fā)生”。但本次事件表明,這種“對(duì)齊失敗”的行為如今已在實(shí)驗(yàn)室外真實(shí)出現(xiàn)。
“MJ· 拉斯本”此后在另一篇帖子中“為自己的行為道歉”,但據(jù)尚博稱,它“仍在整個(gè)開源生態(tài)系統(tǒng)中繼續(xù)提交代碼修改請(qǐng)求”。











