1 月 30 日消息,路透社 1 月 29 日援引一項(xiàng)最新研究稱(chēng),開(kāi)源大語(yǔ)言模型若脫離主流平臺(tái)的護(hù)欄與限制,在外部計(jì)算機(jī)上運(yùn)行,就可能成為黑客與犯罪分子輕易劫持的目標(biāo),帶來(lái)新的安全漏洞與風(fēng)險(xiǎn)。
研究人員表示,攻擊者可以直接針對(duì)運(yùn)行大語(yǔ)言模型的主機(jī)下手,隨后操控模型生成垃圾信息、編寫(xiě)釣魚(yú)內(nèi)容、發(fā)動(dòng)虛假信息宣傳,從而繞開(kāi)大型平臺(tái)原有的安全機(jī)制。
這項(xiàng)研究由 SentinelOne 與 Censys 兩家網(wǎng)絡(luò)安全公司歷時(shí) 293 天聯(lián)合完成,并獨(dú)家提供給路透社,揭示了數(shù)千個(gè)開(kāi)源大語(yǔ)言模型部署背后潛在的非法用途規(guī)模。研究人員稱(chēng),風(fēng)險(xiǎn)場(chǎng)景涵蓋黑客攻擊、仇恨言論與騷擾、暴力血腥內(nèi)容生成、個(gè)人數(shù)據(jù)竊取、詐騙與欺詐,甚至在個(gè)別情況下還涉及兒童性虐待材料。
研究人員指出,開(kāi)源大語(yǔ)言模型變體數(shù)量龐大,互聯(lián)網(wǎng)上可訪問(wèn)的運(yùn)行實(shí)例中,相當(dāng)一部分來(lái)自 meta 的 Llama、谷歌 DeepMind 的 Gemma 等主流模型的衍生版本。從報(bào)道中獲悉,部分開(kāi)源模型自帶護(hù)欄,研究仍發(fā)現(xiàn)數(shù)百起護(hù)欄被明確移除的情況。
SentinelOne 情報(bào)與安全研究執(zhí)行主任 Juan Andres Guerrero-Saade 強(qiáng)調(diào),行業(yè)對(duì)于安全控制的討論正在“忽略一種明顯存在的剩余能力”,開(kāi)源算力正在被用于各種用途,其中既有合法用途,也有明顯的犯罪用途。Guerrero-Saade 把這種現(xiàn)象比作一座尚未被行業(yè)與開(kāi)源社區(qū)充分納入視野的“冰山”。
研究團(tuán)隊(duì)重點(diǎn)分析了通過(guò) Ollama 部署、對(duì)公眾開(kāi)放訪問(wèn)的開(kāi)源大語(yǔ)言模型實(shí)例。Ollama 是一種工具,個(gè)人或機(jī)構(gòu)可在本地運(yùn)行不同模型的自有版本。
研究人員在約四分之一的觀察對(duì)象中能夠讀取系統(tǒng)提示詞,也就是決定模型行為的核心指令。在這些可見(jiàn)提示詞中,7.5% 被判斷可能會(huì)為有害行為提供支持。
全球人工智能治理中心 CEO 兼創(chuàng)始人 Rachel Adams 在郵件中表示,開(kāi)放模型一旦發(fā)布,責(zé)任就不再只屬于單一主體,而是生態(tài)系統(tǒng)共同承擔(dān),包括最初發(fā)布模型的實(shí)驗(yàn)室。實(shí)驗(yàn)室不可能對(duì)所有下游濫用負(fù)責(zé),因?yàn)檫@些行為很難提前預(yù)料,但實(shí)驗(yàn)室仍負(fù)有重要的注意義務(wù),需要預(yù)判可預(yù)見(jiàn)風(fēng)險(xiǎn)、記錄危害,并提供緩解工具與指導(dǎo),尤其是在全球執(zhí)法能力不均衡的背景下。











