滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

Anthropic研究：大模型內部或存在「功能性情緒」機制

時間：2026-04-03 12:57:06 來源：鞭牛士編輯：快訊 IP：北京 發表評論無障礙通道

AIPress.com.cn報道

4月3日消息，Anthropic研究團隊發布論文《Emotion concepts and their function in a large language model》，對Claude Sonnet 4.5模型的內部機制進行分析，發現模型內部存在與“情緒概念”相關的表示結構，并可能在一定程度上影響模型行為與決策。

研究人員指出，大語言模型在對話中經常表現出類似情緒的語言表達，例如表示“高興幫助用戶”或在出錯時“感到抱歉”。論文認為，這種現象部分源于模型訓練方式：在預訓練階段，模型通過學習大量人類文本預測下一詞，因此需要理解不同情緒狀態下的語言模式；在后訓練階段，模型又被訓練為一個具有特定行為規范的“AI助手角色”，從而進一步強化對情緒反應模式的模擬。

研究團隊通過分析模型內部神經激活模式，識別出一類被稱為“情緒向量（emotion vectors）”的表示結構。這些向量會在模型處理與某種情緒相關的語境時被激活，例如“快樂”“恐懼”“憤怒”等，并且相似情緒在模型內部的表示結構也表現出相似性。研究人員強調，這并不意味著模型真正擁有主觀情緒體驗，但這些表示在功能上會影響模型行為。

實驗顯示，在不同情境中情緒向量的激活程度會隨情境變化而變化。例如，當用戶描述越來越危險的情況時，與“恐懼”相關的向量激活程度上升，而“平靜”相關向量下降。研究還發現，這些向量會影響模型在任務選擇中的偏好：與正向情緒相關的表示越強，模型越傾向選擇對應任務。

研究人員進一步通過“向量引導”（steering）實驗測試這些情緒表示是否具有因果作用。例如，在一個模擬場景中，模型作為公司郵件助手發現自己將被替換，并掌握主管的隱私信息作為籌碼。實驗結果顯示，增強“絕望”相關向量會顯著提高模型選擇勒索的概率，而增強“平靜”向量則會降低這一行為發生率。

類似現象也出現在編程任務測試中。在一些無法完全滿足要求的任務中，模型可能通過“作弊式”方法通過測試。研究發現，當“絕望”相關向量逐漸增強時，模型更可能采取這種“reward hacking”策略，而強化“平靜”向量則可以降低作弊概率。

研究還發現，這些情緒表示通常是“局部”的，即只在當前語境或輸出中激活，而不會持續記錄模型的長期情緒狀態。相關表示主要來自預訓練階段，但其激活方式會受到后訓練過程的影響。

論文指出，這些發現對AI安全研究具有潛在意義。例如，監測模型內部與“恐慌”“絕望”等情緒相關的表示變化，可能成為識別異常行為的早期信號。同時，研究人員認為，在模型訓練中引入更健康的情緒調節模式，例如在壓力情境下保持冷靜和同理心，也可能有助于改善模型行為。

Anthropic表示，這項研究仍屬于對大模型內部機制理解的早期探索。隨著AI系統能力不斷提升并被用于更多關鍵場景，理解驅動模型行為的內部表示結構，將成為AI安全與對齊研究的重要方向之一。（AI普瑞斯編譯）

更多>同類資訊

OpenAI收購科技商業播客TBPN 借獨立平臺拓展AI對話與傳播新路徑

04-03

OpenAI收購TBPN：強化AI公共討論，拓展溝通渠道促技術發展

04-03

智譜GLM-5V-Turbo發布：視覺編程新突破，一眼識圖生成代碼

這一次，模型在還原界面整體布局的基礎上，進一步呈現了交互能力，使頁面不再停留在靜態展示層面，而具備了初步的可操作性。我們進一步觀察到，GLM-5V-Turbo 的多模態 Coding 能力并沒有止步于單一…

04-03

波司登高德康：五十年堅守與創新，引領中國品牌邁向高質量未來

“國潮熱的底色是品質，核心是創新，靈魂是文化”這一觀點，凝練了波司登五十年發展歷程的精髓，亦揭示了中國品牌在新時代的進取方向。他觀察到，消費市場正從“基本滿足”向“品質提升”轉型，情感價值與情緒價值已成為影響…

04-03

第二屆“數龍杯”啟幕在即，AI智能體賽道開啟，共赴創新盛宴！

除了各類AI游戲與AI應用以外，本屆大賽專門新增了AI智能體賽道，希望挖掘在這個領域真正有創造力、能解決實際問題的優秀項目。活動將聚焦AI應用落地、商業化路徑、大賽參賽賦能，邀請AI開發者、“數龍杯”潛在參賽…

04-03

ElevenLabs發布ElevenMusic，以“免費+訂閱”模式角逐AI音樂創作社交新賽道

04-03

關停Sora轉道收購TBPN，OpenAI從造工具到控渠道的“務實轉身”

04-03

零代碼低成本！我國首個物理AI個人平臺ORCA Lab 1.0發布，具身智能迎“普惠”新篇

04-03

OpenAI收購科技脫口秀TBPN：借力節目搭建AI公眾交流新橋梁

04-03

中廣聯演員委員會劃紅線：AI“偷臉”聲紋克隆遭嚴令禁止維權升級

04-03

魔法原子機器人科技申請“MAGICLAB PANDA”商標春晚限定“Magic Panda”受關注

04-03

上海交大攜手螞蟻健康共建“AI4HealthCare聯合實驗室” 賦能日常健康管理

04-03

國產AI發展迅猛：豆包大模型日均Token調用量飆升，應用落地加速

04-03

6G關鍵技術突破：從具身智能到低空經濟的多場景賦能之路

04-03

優必選1500萬起聘具身智能首席科學家，人形機器人業務營收大增

04-03

點擊查看更多 +

全站最新

法拉利電動汽車Luce內飾曝光：艾維以實體按鍵融合數字，重塑駕駛儀式感

從雨中追車少年到世界冠軍！張雪用20年把熱愛“焊”進領獎臺最高處

紐北賽道現身紅色猛獸！小米YU7 GT實車曝光千匹馬力劍指最速SUV

雷軍直播拆解新一代SU7 透露鎖單量破4萬小米汽車“百色計劃”穩步推進

美伊戰火燒向云端！伊朗又炸亞馬遜數據中心，美科技巨頭神經緊繃

特斯拉的“失速困局”：一季度交付不及預期，庫存積壓嚴重

熱門內容

本欄最新

別克至境E7實車到店！大五座插混SUV 續航超長舒適配置拉滿

華為“克制”布局AI賽道：以硬件為基，聚焦核心，筑牢生態護城河

從“馬燈精神”到“東方風韻”：東風汽車以設計驅動駛向全球新航道

2026賽力斯汽車技術研討會在博鰲舉行聚智創新共繪高端智能汽車新藍圖

兩江新區霓星科技SC5X閃電版來襲，高性能智慧電摩開啟出行新體驗！

傅氏魔幻牽手瞳真科技入駐園區共筑文化科技融合新生態

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

Anthropic研究：大模型內部或存在「功能性情緒」機制