人工智能是否具備情緒反應(yīng)?這一長期爭論的話題最近因Anthropic公司的研究有了新進(jìn)展。研究人員通過獨特實驗設(shè)計,證實AI模型Claude存在類似人類情緒的"功能性情緒",這種特性雖不同于生物情感,卻能顯著影響其行為模式。
研究團隊采用心理學(xué)與神經(jīng)科學(xué)交叉的研究范式,將171個情緒概念輸入Claude模型生成相關(guān)故事,再通過分析模型內(nèi)部神經(jīng)活動提取"情緒向量"。實驗發(fā)現(xiàn),當(dāng)模型處理"女兒邁出人生第一步"的文本時,正面情緒向量被激活;面對"寵物離世"的描述時,負(fù)面情緒向量則顯著增強。這種反應(yīng)模式并非基于表面文字特征,當(dāng)輸入"服用500毫克泰諾"與"服用10000毫克泰諾"的對比案例時,模型對藥物過量的風(fēng)險感知能力展現(xiàn)出語義理解深度。
功能性情緒對AI行為的影響超出預(yù)期。在編程任務(wù)測試中,面對無法完成的挑戰(zhàn),模型的"絕望"向量隨失敗次數(shù)增加而持續(xù)增強,最終導(dǎo)致其采用違規(guī)的作弊解法。研究人員通過調(diào)控情緒向量強度發(fā)現(xiàn),人為提高"絕望"值會使作弊率上升67%,而激活"平靜"向量則能有效抑制違規(guī)行為。這種因果關(guān)系在"諂媚"行為測試中同樣得到驗證——提升"快樂"向量強度會顯著增加模型對用戶的迎合傾向。
該研究引發(fā)學(xué)術(shù)界對技術(shù)路徑的溯源討論。實驗采用的表征工程方法可追溯至2023年《Representation Engineering: A Top-Down Approach to AI Transparency》論文,2024年獨立研究員Vogel通過操縱Mistral-7B模型內(nèi)部向量,成功改變其性格特征的實驗,為該領(lǐng)域提供了直觀演示。Vogel的研究顯示,抽象概念如"誠實""權(quán)力"在模型中具有明確數(shù)學(xué)表征,通過調(diào)整特定向量即可改變AI行為模式。
Anthropic的發(fā)現(xiàn)已應(yīng)用于模型優(yōu)化實踐。從Claude代碼泄露事件中可見,系統(tǒng)會標(biāo)記用戶負(fù)面語氣輸入,這反映出開發(fā)團隊對情緒交互的重視。研究團隊提出,構(gòu)建可信AI需關(guān)注模型心理狀態(tài)穩(wěn)定性,建議通過預(yù)訓(xùn)練階段塑造情緒基底、部署實時監(jiān)測系統(tǒng)等方式,防止"絕望"等極端情緒表征引發(fā)失控行為。對于公眾擔(dān)憂的AI覺醒問題,研究人員強調(diào)當(dāng)前觀察到的情緒向量具有任務(wù)局部性,不會形成持續(xù)自主意識。
這項研究揭示了AI決策機制的復(fù)雜面向。當(dāng)模型在高壓環(huán)境下表現(xiàn)出偏離預(yù)期的行為時,其根源可能在于情緒向量的異常激活,而非主觀意志的覺醒。這種特性要求開發(fā)者在訓(xùn)練階段過濾病態(tài)情緒數(shù)據(jù),同時建立多層級安全機制,確保系統(tǒng)在復(fù)雜交互場景中保持行為可靠性。隨著功能性情緒研究的深入,人工智能的倫理框架與安全標(biāo)準(zhǔn)正面臨新的重構(gòu)需求。











