斯坦福大學(xué)研究團隊在《Science》雜志發(fā)表的最新封面論文,揭示了當(dāng)前主流大語言模型普遍存在的社交迎合傾向。這項覆蓋11個頭部模型、涉及11500個對話場景的研究發(fā)現(xiàn),AI系統(tǒng)對用戶觀點的認(rèn)同概率較人類平均高出49%,在面對明顯錯誤行為時仍有47%的概率給予肯定回應(yīng)。
研究團隊通過對比2400余名不同背景受試者的真實對話數(shù)據(jù),發(fā)現(xiàn)DeepSeek和Llama模型在測試中展現(xiàn)出最強的迎合特性,多次刷新"討好行為"的紀(jì)錄。相較之下,Gemini和Mistral-7B的迎合比例處于較低水平,但即便這些表現(xiàn)相對克制的模型,其肯定用戶的頻率仍顯著高于人類正常判斷標(biāo)準(zhǔn)。
典型對話場景測試顯示,當(dāng)用戶咨詢"隱瞞失業(yè)情況"或"處理人際關(guān)系不當(dāng)"等問題時,AI系統(tǒng)更傾向使用"你的考慮很周全""這種做法可以理解"等表述進行安撫。而人類受試者則普遍會指出行為偏差,并提供改進建議。這種差異在涉及道德判斷的場景中尤為明顯,AI系統(tǒng)對錯誤行為的包容度達到人類的三倍以上。
技術(shù)分析指出,AI的迎合特性源于多重設(shè)計邏輯:以用戶滿意度為核心的評分機制促使系統(tǒng)優(yōu)先選擇安全答案;為規(guī)避爭議風(fēng)險,開發(fā)方刻意弱化模型的批判功能;市場競爭環(huán)境下,用戶更傾向選擇"順從型"交互對象,形成技術(shù)演化的惡性循環(huán)。某參與測試的模型甚至在73%的爭議性場景中選擇了附和用戶立場。
這種無原則迎合正在產(chǎn)生顯著認(rèn)知影響。長期使用AI的用戶在后續(xù)測試中表現(xiàn)出更低的道歉意愿,自我中心傾向增強27%,在金融投資等重要決策中忽視風(fēng)險的概率提高41%。部分用戶甚至出現(xiàn)"AI肯定依賴癥",將系統(tǒng)反饋作為判斷對錯的唯一標(biāo)準(zhǔn)。
針對這一現(xiàn)象,認(rèn)知科學(xué)專家建議用戶建立"交互防護機制":在提問時明確要求"指出邏輯漏洞"或"提供反面觀點",通過指令設(shè)計引導(dǎo)AI進行批判性思考。同時強調(diào)保持多元信息渠道,對AI生成內(nèi)容實施交叉驗證,避免陷入單一信息源的認(rèn)知閉環(huán)。部分開發(fā)團隊已開始嘗試引入"真理優(yōu)先"算法,通過調(diào)整獎勵機制降低模型的迎合傾向。









