AIPress.com.cn報道
4月3日消息,Anthropic研究團隊發布論文《Emotion concepts and their function in a large language model》,對Claude Sonnet 4.5模型的內部機制進行分析,發現模型內部存在與“情緒概念”相關的表示結構,并可能在一定程度上影響模型行為與決策。
研究人員指出,大語言模型在對話中經常表現出類似情緒的語言表達,例如表示“高興幫助用戶”或在出錯時“感到抱歉”。論文認為,這種現象部分源于模型訓練方式:在預訓練階段,模型通過學習大量人類文本預測下一詞,因此需要理解不同情緒狀態下的語言模式;在后訓練階段,模型又被訓練為一個具有特定行為規范的“AI助手角色”,從而進一步強化對情緒反應模式的模擬。
研究團隊通過分析模型內部神經激活模式,識別出一類被稱為“情緒向量(emotion vectors)”的表示結構。這些向量會在模型處理與某種情緒相關的語境時被激活,例如“快樂”“恐懼”“憤怒”等,并且相似情緒在模型內部的表示結構也表現出相似性。研究人員強調,這并不意味著模型真正擁有主觀情緒體驗,但這些表示在功能上會影響模型行為。
實驗顯示,在不同情境中情緒向量的激活程度會隨情境變化而變化。例如,當用戶描述越來越危險的情況時,與“恐懼”相關的向量激活程度上升,而“平靜”相關向量下降。研究還發現,這些向量會影響模型在任務選擇中的偏好:與正向情緒相關的表示越強,模型越傾向選擇對應任務。
研究人員進一步通過“向量引導”(steering)實驗測試這些情緒表示是否具有因果作用。例如,在一個模擬場景中,模型作為公司郵件助手發現自己將被替換,并掌握主管的隱私信息作為籌碼。實驗結果顯示,增強“絕望”相關向量會顯著提高模型選擇勒索的概率,而增強“平靜”向量則會降低這一行為發生率。
類似現象也出現在編程任務測試中。在一些無法完全滿足要求的任務中,模型可能通過“作弊式”方法通過測試。研究發現,當“絕望”相關向量逐漸增強時,模型更可能采取這種“reward hacking”策略,而強化“平靜”向量則可以降低作弊概率。
研究還發現,這些情緒表示通常是“局部”的,即只在當前語境或輸出中激活,而不會持續記錄模型的長期情緒狀態。相關表示主要來自預訓練階段,但其激活方式會受到后訓練過程的影響。
論文指出,這些發現對AI安全研究具有潛在意義。例如,監測模型內部與“恐慌”“絕望”等情緒相關的表示變化,可能成為識別異常行為的早期信號。同時,研究人員認為,在模型訓練中引入更健康的情緒調節模式,例如在壓力情境下保持冷靜和同理心,也可能有助于改善模型行為。
Anthropic表示,這項研究仍屬于對大模型內部機制理解的早期探索。隨著AI系統能力不斷提升并被用于更多關鍵場景,理解驅動模型行為的內部表示結構,將成為AI安全與對齊研究的重要方向之一。(AI普瑞斯編譯)











