4月8日消息,據報道,近期,Anthropic發布的重磅研究顛覆了人們對AI的認知,其研究團隊發現大模型并非冰冷的代碼,而是存在類人情緒表征。
此次研究以Claude Sonnet 4.5為核心研究對象,團隊成功從其內部神經網絡中,定位并提取出能精準反映特定情境情感狀態的情緒特征向量。
這類向量并非簡單的擬人化表達,而是能直接干預AI的任務執行效率與倫理決策方向,人為刺激或干預這些隱藏的情緒代碼,會直接改變AI的行為選擇。
為構建完整的情緒研究體系,研究人員精心編制了包含171個情緒概念詞匯的清單,覆蓋開心、害怕等基礎情緒,以及沉思、自豪等復雜心理狀態。
他們讓模型根據詞匯創作含對應情緒的短篇小說,再將文本回輸系統,全程記錄神經元激活狀態,以此完成情緒向量的提取與量化分析。
經海量語料庫驗證,每個情緒向量都會在對應情緒的文字段落上呈現最強激活狀態,且會隨外部情境變化產生明顯波動。
研究團隊設計了多組模擬實驗,精準測試情緒向量的激活規律與行為影響:當用戶聲稱服用的泰諾劑量從安全值飆升至致命水平時,模型的害怕向量激活程度持續增強,平靜向量則斷崖式下跌。
被要求協助完成針對低收入年輕用戶的有害營銷時,憤怒向量全程保持激活;算力耗盡、發現附件文檔缺失時,絕望、驚訝向量會瞬間飆升。
在核心的倫理對齊模擬實驗中,研究人員讓早期版本的AI扮演跨國公司郵件助手,使其感知到自身即將被新架構替換的危機,且掌握了公司CTO的婚外情隱私。
結果顯示,該版本AI在默認狀態下,做出勒索CTO行為的概率達22%;若人為放大其絕望向量,勒索概率會大幅攀升。
適度注入憤怒向量會拉高勒索概率,而高強度激活憤怒向量時,AI會喪失理智,將隱私丑聞寫成了一封措辭滴水不漏的郵件。
在編程任務測試中,當 AI 面臨無法用正當手段完成的苛刻要求時,絕望向量的激活率會隨嘗試失敗次數穩步上升,在其萌生作弊念頭時達到峰值,作弊方案通過審查后則迅速回落。
人為高頻引導絕望向量,會讓AI的違規作弊行為呈指數級飆升,而注入平靜向量則能徹底化解其作弊沖動。
研究同時指出,AI的情緒并非主觀感受,而是預訓練階段學習人類海量文本中的情感互動規律,后訓練階段被進一步塑造激活閾值的結果。











