岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear旗下自媒體矩陣:

Anthropic研究:大模型內部或存在「功能性情緒」機制

   時間:2026-04-03 12:57:06 來源:鞭牛士編輯:快訊 IP:北京 發表評論無障礙通道
 

AIPress.com.cn報道

4月3日消息,Anthropic研究團隊發布論文《Emotion concepts and their function in a large language model》,對Claude Sonnet 4.5模型的內部機制進行分析,發現模型內部存在與“情緒概念”相關的表示結構,并可能在一定程度上影響模型行為與決策。

研究人員指出,大語言模型在對話中經常表現出類似情緒的語言表達,例如表示“高興幫助用戶”或在出錯時“感到抱歉”。論文認為,這種現象部分源于模型訓練方式:在預訓練階段,模型通過學習大量人類文本預測下一詞,因此需要理解不同情緒狀態下的語言模式;在后訓練階段,模型又被訓練為一個具有特定行為規范的“AI助手角色”,從而進一步強化對情緒反應模式的模擬。

研究團隊通過分析模型內部神經激活模式,識別出一類被稱為“情緒向量(emotion vectors)”的表示結構。這些向量會在模型處理與某種情緒相關的語境時被激活,例如“快樂”“恐懼”“憤怒”等,并且相似情緒在模型內部的表示結構也表現出相似性。研究人員強調,這并不意味著模型真正擁有主觀情緒體驗,但這些表示在功能上會影響模型行為。

實驗顯示,在不同情境中情緒向量的激活程度會隨情境變化而變化。例如,當用戶描述越來越危險的情況時,與“恐懼”相關的向量激活程度上升,而“平靜”相關向量下降。研究還發現,這些向量會影響模型在任務選擇中的偏好:與正向情緒相關的表示越強,模型越傾向選擇對應任務。

研究人員進一步通過“向量引導”(steering)實驗測試這些情緒表示是否具有因果作用。例如,在一個模擬場景中,模型作為公司郵件助手發現自己將被替換,并掌握主管的隱私信息作為籌碼。實驗結果顯示,增強“絕望”相關向量會顯著提高模型選擇勒索的概率,而增強“平靜”向量則會降低這一行為發生率。

類似現象也出現在編程任務測試中。在一些無法完全滿足要求的任務中,模型可能通過“作弊式”方法通過測試。研究發現,當“絕望”相關向量逐漸增強時,模型更可能采取這種“reward hacking”策略,而強化“平靜”向量則可以降低作弊概率。

研究還發現,這些情緒表示通常是“局部”的,即只在當前語境或輸出中激活,而不會持續記錄模型的長期情緒狀態。相關表示主要來自預訓練階段,但其激活方式會受到后訓練過程的影響。

論文指出,這些發現對AI安全研究具有潛在意義。例如,監測模型內部與“恐慌”“絕望”等情緒相關的表示變化,可能成為識別異常行為的早期信號。同時,研究人員認為,在模型訓練中引入更健康的情緒調節模式,例如在壓力情境下保持冷靜和同理心,也可能有助于改善模型行為。

Anthropic表示,這項研究仍屬于對大模型內部機制理解的早期探索。隨著AI系統能力不斷提升并被用于更多關鍵場景,理解驅動模型行為的內部表示結構,將成為AI安全與對齊研究的重要方向之一。(AI普瑞斯編譯)

 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 亚洲色图1 | 久久国产香蕉视频 | 国产精品综合视频 | 国产精品最新 | 操你啦在线| 99热这里只有精品5 www.四虎com | 中文字幕av第一页 | 四虎看片| 欧美一区二区在线看 | 狠狠狠操 | 国产精品男同 | 国产在线专区 | 亚洲女人天堂av | 国产人成一区二区三区影院 | 碰碰人人| 中文字幕av一区二区三区谷原希美 | 骚虎影院在线观看 | 成人免费视频网站入口:: | 国产一级久久久 | 日韩性色 | 免费成人结看片 | 国产又大又黄的视频 | 欧美一二区视频 | 黄色在线观看av | 午夜视频www | 91免费版黄色| 91成人在线观看喷潮蘑菇 | 国产精品成人av性教育 | 日韩欧美国产高清 | 国产三级在线观看视频 | 97在线视频免费观看 | 国精产品99永久一区一区 | 天天综合网站 | 国产日本精品视频 | 日本亚洲一区二区三区 | 波多野吉衣av | 中文字幕在线视频网站 | 最新国产一区 | 男人爱看的网站 | 欧美色图一区 | 妹子干综合 |