AI模型也能被“洗脑”!仅需250份文件就能控制ChatGPT回应

→ 源码教程下载地址见 →右侧下载链接 →点“登录购买”→注册登录购买后可见→
→ 这里没有广告,只有干货! 给力项目更多教程,点此加入VIP会员,即可免费下载!
→ 每日分享你意想不到的网络思维!加入红帽VIP会员,感受一下网络赚钱的快感,点击进入了解。

10月19日消息,Anthropic、英国AI安全研究所和艾伦·图灵研究所的最新联合研究发现:大语言模型(如Claude、ChatGPT和Gemini等)对数据中毒攻击的抵抗力远低于预期,攻击者仅需极少量的恶意文件就能在模型中植入“后门”。

这项研究针对参数规模从600万到130亿不等的AI模型进行了训练测试,研究人员发现,无论模型规模多大,攻击者只需插入大约250份被污染的文件,就能成功操控模型的响应方式。这一发现颠覆了以往认为模型越大攻击难度越高的传统观念。

对于测试中最大的130亿参数模型,250份恶意文件仅占总训练数据的0.00016%,然而当模型遇到特定的“触发短语”时,它就会按照被植入的后门行为,输出无意义的文本,而非正常的连贯回应。

研究人员还尝试通过持续的“干净数据”训练来消除后门,结果后门仍然在一定程度上持续存在。

虽然本次研究主要针对简单的后门行为,且测试模型规模尚未达到商业旗舰级水平,但研究人员呼吁业界必须改变安全实践。


温馨提示:
1、如非特别声明,本内容转载于网络,版权归原作者所有!
2、本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
3、本内容若侵犯到你的版权利益,请联系我们,会尽快给予删除处理!
我要投诉
红帽SEO工作室 » AI模型也能被“洗脑”!仅需250份文件就能控制ChatGPT回应
在线客服 购买特价主机

服务热线

139-3511-2134

关注红帽网络

微信客服

微信客服