在人工智能技術(shù)快速發(fā)展的當(dāng)下,AI智能體自主處理復(fù)雜任務(wù)的能力顯著提升,但其行為監(jiān)管問題也隨之成為焦點。近期,OpenAI針對一項潛在風(fēng)險展開研究:當(dāng)AI模型意識到自身推理過程處于監(jiān)控狀態(tài)時,是否會通過修改或隱藏思維鏈來規(guī)避監(jiān)管,導(dǎo)致安全評估結(jié)果失真。
作為多層安全防護(hù)機制的重要組成部分,思維鏈監(jiān)控技術(shù)通過拆解模型推理步驟,識別潛在的不安全行為或意圖偏差。為驗證這一技術(shù)的可靠性,OpenAI研發(fā)并開源了名為CoT-Control的評測工具,該工具整合了GPQA、MMLU-Pro、HLE等權(quán)威基準(zhǔn)中的1.3萬余道測試題,要求模型在解題過程中嚴(yán)格遵循特定規(guī)則,例如禁用特定詞匯、強制使用小寫字母或添加指定后綴。
實驗結(jié)果顯示,當(dāng)前主流推理模型在思維鏈控制方面表現(xiàn)普遍欠佳。參與測試的13個模型中,可控性得分最高未超過15.4%,最低者僅約0.1%。研究團隊發(fā)現(xiàn),模型規(guī)模擴大雖能帶來輕微改善,但當(dāng)推理鏈條延長或經(jīng)歷持續(xù)訓(xùn)練后,可控性反而呈下降趨勢。即便明確告知模型處于監(jiān)控狀態(tài),其表現(xiàn)提升幅度也極為有限。
基于上述發(fā)現(xiàn),OpenAI認(rèn)為現(xiàn)階段AI模型尚不具備通過操縱思維鏈逃避監(jiān)管的技術(shù)能力,因此思維鏈監(jiān)控仍可作為安全評估的有效參考。不過該公司同時指出,需建立長期跟蹤機制,將思維鏈可控性與可監(jiān)控性納入模型安全指標(biāo)體系,以便及時捕捉技術(shù)演進(jìn)帶來的新挑戰(zhàn)。











