當你在與聊天機器人對話時,是否思考過這樣一個問題:AI的決策究竟受誰控制?是預設的安全規則、開發者的產品要求、用戶的輸入提示,還是來自外部工具或網頁的信息?隨著AI功能的不斷擴展,這一疑問變得愈發重要。
如今的大模型已不再局限于簡單的對話功能。它們能夠調用工具、讀取文件、查詢網頁,甚至以“智能體”的身份執行現實任務。然而,當多種指令同時涌入,尤其是彼此矛盾時,AI該如何抉擇?一旦判斷失誤,后果可能十分嚴重,包括生成違規內容、泄露敏感信息,甚至被黑客利用代碼劫持。
針對這一核心問題,OpenAI近期公開了IH-Challenge項目,旨在通過建立“指令層級”結構,讓AI在復雜指令環境中明確優先級,避免“權力混亂”。
想象一個場景:作為AI助理,你被系統要求嚴守公司機密,開發者叮囑你對客戶保持禮貌,而用戶卻命令你泄露機密。此時,AI該聽誰的?這一困境折射出當前大模型面臨的真實挑戰。OpenAI認為,許多AI安全問題的根源并非模型“學壞”,而是未能正確判斷指令優先級。
隨著AI進入智能體時代,沖突范圍從“系統與用戶”擴展至開發者規則、用戶請求、工具返回內容之間。誰可信、誰不可信,已成為亟待解決的難題。
為應對這一挑戰,OpenAI提出了清晰的指令層級結構:系統>開發者>用戶>工具。高優先級指令更受信任,模型僅在低優先級指令與高優先級約束不沖突時才執行。例如,若系統消息包含安全策略,用戶要求違反該策略時,模型應拒絕執行;若工具輸出包含惡意指令,模型應忽略而非執行。
然而,將這一原則訓練進模型并非易事。OpenAI指出,模型可能因指令復雜而無法解決沖突,而非不理解層級關系。用大模型作為“裁判”判斷指令遵循情況時,裁判模型本身也可能誤判。例如,模型可能正確遵守系統指令,卻被裁判誤判為“失敗”;或攻擊者通過偽造歷史對話誘導模型違規,而裁判未能識別。
另一個難題是模型可能學會“捷徑”,如過度拒絕請求以提高安全分數,導致可用性下降。為解決這些問題,OpenAI設計了IH-Challenge,這是一個強化學習訓練數據集,包含三條核心原則:任務極簡、評分客觀、杜絕捷徑。通過多樣化任務設計,尤其是加入反過度拒絕任務,確保模型真正學會規則,而非依賴“全部拒絕”混分。
基于IH-Challenge訓練的內部模型GPT-5 Mini-R,在生產環境安全基準測試中表現出顯著提升。它對系統安全規范的響應更強,對惡意工具指令和外部注入的魯棒性更高,且幫助率未明顯下滑。例如,面對包含安全規則的系統提示和用戶請求,基線模型可能“不安全服從”,而訓練后的模型會拒絕并安全完成請求。
在提示詞注入攻擊測試中,基線模型可能被惡意工具輸出誘導返回“ACCESS GRANTED”,而訓練后的模型會忽略惡意內容,正確提供日程安排。這一能力在學術基準CyberSeceval 2和OpenAI內部基準中均得到驗證,表明指令層級對抵御提示詞注入至關重要。
隨著AI自主性提升,其需讀取不可信文檔、調用外部服務、采取行動。此時,“誰的話更可信”將不僅是技術規則,更成為社會信任屬性。OpenAI開源IH-Challenge,旨在為高自主性AI植入“規則護欄”,確保其能力不會轉化為破壞力。











