OpenAI近日正式啟動了一項名為“Safety Bug Bounty”的專項漏洞賞金計劃,旨在通過全球安全研究者的力量,挖掘人工智能系統(tǒng)中潛在的濫用風險與安全威脅。該計劃特別關(guān)注傳統(tǒng)網(wǎng)絡(luò)安全范疇之外的問題,例如模型被惡意操控、數(shù)據(jù)泄露風險以及代理系統(tǒng)濫用等場景,為AI技術(shù)的安全應(yīng)用提供外部監(jiān)督機制。
隨著生成式AI技術(shù)的快速發(fā)展,其應(yīng)用場景日益復雜,安全挑戰(zhàn)也隨之升級。OpenAI安全團隊指出,傳統(tǒng)網(wǎng)絡(luò)安全漏洞(如系統(tǒng)入侵或權(quán)限繞過)已通過現(xiàn)有“Security Bug Bounty”計劃覆蓋,而新計劃將聚焦AI特有的風險類型,形成雙重防護體系。例如,攻擊者可能通過精心設(shè)計的文本提示誘導AI代理執(zhí)行危險操作,或從模型輸出中提取未公開的專有信息,這些均屬于新計劃的覆蓋范圍。
根據(jù)規(guī)則,該計劃明確三類核心風險類別。其一為“代理型風險”,包括第三方通過提示注入攻擊(prompt injection)操控AI行為,研究者需證明攻擊在至少半數(shù)場景下可復現(xiàn)方能獲得獎勵;其二涉及專有信息泄露,如模型輸出中暴露內(nèi)部推理邏輯或公司敏感數(shù)據(jù);其三聚焦平臺完整性,涵蓋繞過自動化檢測、篡改賬戶信任評分或規(guī)避封禁機制等行為。值得注意的是,單純繞過內(nèi)容限制生成粗俗語言或公開信息的“越獄”行為不在獎勵范圍內(nèi),但針對生物安全等高風險領(lǐng)域的專項活動將另行開展。
研究人員需通過OpenAI官方平臺提交報告,由跨部門團隊聯(lián)合審核并分類問題性質(zhì)。安全漏洞將按傳統(tǒng)流程處理,而AI特有的風險則納入專項評估。這一機制既保證了問題處理的效率,也確保了資源向高優(yōu)先級風險傾斜。OpenAI強調(diào),所有提交內(nèi)容均受嚴格保密協(xié)議保護,研究者可放心參與。
業(yè)內(nèi)專家認為,該計劃的推出標志著AI安全治理從被動防御轉(zhuǎn)向主動協(xié)作。通過引入外部研究者視角,企業(yè)能夠更早發(fā)現(xiàn)系統(tǒng)盲區(qū),尤其在模型可解釋性、對抗樣本防御等前沿領(lǐng)域,外部力量往往能提供獨特洞察。OpenAI表示,此舉不僅是為了提升自身產(chǎn)品安全性,更希望推動整個行業(yè)建立更透明的安全評估標準,為AI技術(shù)的規(guī)模化應(yīng)用奠定信任基礎(chǔ)。











