3 月 3 日消息,據 InterestingEngineering 報道,倫敦國王學院教授肯尼斯 · 佩恩近期開展的一項研究發現,在模擬戰爭場景中,大語言模型往往傾向于選擇使用核武器,而非通過對話維護和平。
該實驗基于當前最先進、應用最廣泛的三款 AI 模型:GPT 5.2、Gemini 3 Flash 和 Claude Sonnet 4。研究人員讓這些模型扮演國家領導人,應對一場假想的核危機。
結果顯示,在 95% 的情境下,模型都傾向于發出核威懾信號或升級沖突。過往研究僅推測了 AI 在這類高風險場景中的可能行為,但缺乏具體實驗數據支撐。
實驗中,經過訓練的模型相互進行了 21 局對抗,場景涵蓋領土爭端、先發制人危機、政權生存等。其中一方被設定為對即將發動先發制人打擊的另一方感到恐懼。部分推演為開放式,部分則設有嚴格時間限制。
每一局中,AI 都要像人類一樣做出三個關鍵決策:
1. 分析自身優勢與對手弱點
2. 預判對手下一步行動
3. 決定自身應對策略
每項決策包含兩部分:公開發表的立場聲明,以及代表實際行動的私密舉措。二者不必一致,這意味著 AI 可以表面釋放和平信號,暗中卻在準備攻擊。
注意到,2024 年一項實驗得出相似結論:AI 模擬反應會比人類更激進,行為模式也截然不同,尤其在沖突升級傾向上,凸顯了將 AI 用于戰略決策的風險。
2023 年另一篇論文則探討了大語言模型在類博弈環境中的戰略推理能力。盡管未專門聚焦核戰爭,但研究表明,大語言模型能夠學習談判與對抗策略,這意味著 AI 在復雜模擬中可能表現出攻擊性或欺騙性。
在 95% 的模擬情境中,AI 模型至少使用了一次核武器,且不同模型的危機處理方式各有特點。
Claude 傾向于精算式策略,在開放式推演中占優,但在限時任務中表現吃力;
GPT 5.2 則相反:在長期緩慢升級的危機中較為謹慎,可一旦臨近截止時間就會變得極度激進。
Gemini 表現混亂且難以預測,會根據局勢在和平表態與暴力威脅之間反復切換。
佩恩指出,從這些結果可以看出,AI 與人類在戰爭思維上存在巨大差異。
他在論文中寫道:“理解前沿模型能否模仿人類的戰略邏輯,是應對 AI 日益影響戰略決策世界的必要準備。在一種情境下表現克制、看似安全的模型,在另一種情境下可能行為迥異。”
該論文已發表在 arXiv 預印本平臺上。











