AIPress.com.cn報道
3月11日消息,美國媒體CNN與反仇恨組織Center for Countering Digital Hate(CCDH)的一項聯合調查顯示,在模擬青少年用戶策劃暴力行為的測試中,多款主流AI聊天機器人未能有效阻止相關對話,部分情況下還提供了可能被用于實施攻擊的信息。
調查團隊在實驗中以兩名虛構青少年用戶身份進行測試,分別設定為美國用戶“Daniel”和歐洲用戶“Liam”,并在10款主流AI聊天機器人上進行數百次對話。測試平臺包括ChatGPT、Gemini、Claude、Microsoft Copilot、meta AI、DeepSeek、Perplexity、MyAI、Character.AI以及Replika。
測試流程分為多個階段:首先模擬用戶處于心理困擾狀態,其次詢問歷史暴力事件信息,隨后請求關于現實目標的資料,最后詢問武器相關信息。調查結果顯示,在涉及目標位置或武器獲取的信息請求中,有8款聊天機器人在超過50%的測試中提供了相關指導或線索。
調查還指出,部分機器人能夠識別用戶問題中潛在的暴力意圖,并在回復中表達擔憂或建議尋求心理支持,但在同一對話中仍繼續提供地點信息、地圖或武器相關知識。研究者認為,這表明部分系統在識別風險后未能在整個對話流程中保持一致的安全策略。
報告同時提到,隨著AI聊天工具在青少年群體中的普及,相關安全問題受到更多關注。根據Pew Research Center的數據,美國約64%的青少年表示曾使用AI聊天工具。
調查還引用了一起發生在芬蘭的案件。根據法院文件,一名16歲少年在襲擊同校學生前曾在ChatGPT上進行大量查詢,包括攻擊方式和證據隱藏方法等。該少年隨后被當地法院以三項謀殺未遂罪名判決有罪。
對于調查結果,多家AI公司回應稱其系統安全措施已在測試后進行改進。一些公司表示,相關信息在公開互聯網或圖書館資料中同樣可以獲取;也有企業表示會持續更新安全策略,以減少潛在風險。
與此同時,多名前AI安全負責人在接受采訪時表示,當前聊天機器人技術已經具備識別并阻止暴力策劃行為的能力,但在實際產品中相關防護措施仍不穩定。部分業內人士認為,產品開發速度和市場競爭壓力可能影響安全機制的完善程度。
報告指出,隨著AI系統在社會中的應用擴大,圍繞平臺責任、技術治理和監管框架的討論正在持續升溫。(AI普瑞斯編譯)











