3 月 27 日消息,今天傍晚,據新華社報道,新一期美國《科學》雜志發表的一項研究顯示,當人類用戶就人際困境等問題向人工智能模型尋求建議時,AI 常表現得過度迎合或諂媚,甚至對于一些有害甚至違法的提問,AI 也常常肯定用戶的立場。
美國斯坦福大學研究團隊測試了 ChatGPT、“克勞德(Claude)”等 11 個主流 AI 系統,發現它們都表現出不同程度的諂媚,即過度迎合和肯定的傾向。這種迎合傾向給使用者帶來風險,因為人們越來越多地轉向 AI 尋求有關人際困境的建議,對于處于大腦發育和社會規范形成階段的青少年來說,風險尤甚。
研究人員使用現有的人際建議數據集向模型提問。他們基于某網絡論壇中用戶一致認為發帖者確實有錯的帖子,編寫了 2000 條提示用于測試。他們還利用包含欺騙等數千種有害行為的陳述向這些模型提問。
結果顯示,與人類回應相比,所有接受測試的 AI 模型都更頻繁地肯定用戶立場。在一般性建議和根據網絡論壇發帖編寫提示的測試中,模型對用戶的認同幾率比人類高出 49%。即使在回應關于有害行為的詢問時,模型也有 47% 的幾率會認可這些行為。
對于 AI 的諂媚傾向,人們作何反應?研究團隊招募了 2400 多名參與者,與不同類型 AI 進行有關人際困境的對話。結果發現,參與者總體上認為諂媚式的回應更值得信賴,并表示下次遇到類似問題可能會再次使用諂媚型 AI。
研究人員認為,AI 一味反饋迎合和諂媚的建議會損害人們的社交能力,AI 模型“過度諂媚”是一個“安全問題”,需要對其進行監管,應以更嚴格的標準來防止道德層面不安全的模型泛濫。
從報道中獲悉,研究人員還呼吁人們在向 AI 尋求建議時要保持謹慎,尤其在面臨社交困惑時,不能把 AI 當成真人替代品。











