艾伦・图灵研究所等最新研究：只需 250 份恶意文档就能攻破任意体量 AI 模型-网络资讯-红帽SEO工作室

当前位置：红帽SEO工作室网络资讯艾伦・图灵研究所等最新研究：只需 250 份恶意文档就能攻破任意体量 AI 模型

→ 源码教程下载地址见 →右侧下载链接 →点“登录购买”→注册登录购买后可见→
→ 这里没有广告，只有干货！给力项目更多教程，点此加入VIP会员,即可免费下载！
→ 每日分享你意想不到的网络思维！加入红帽VIP会员，感受一下网络赚钱的快感，点击进入了解。

10 月 11 日消息，据外媒 TechXplore 10 日报道，Anthropic、英国 AI 安全研究院和艾伦・图灵研究所的最新研究发现，即使是体量最大的 AI 模型，只需约 250 份恶意文档，就可能被成功入侵。

大语言模型的训练数据大多来自公开网络，从而使其能积累庞大知识库、生成自然语言，但同时也暴露在数据投毒的风险之下。

过去普遍认为，随着模型规模变大，风险会被稀释，因为投毒数据的比例需保持恒定。也就是说，要污染巨型模型需要极多的恶意样本。然而，发表在 arXiv 平台上的这项研究颠覆了这一假设 —— 攻击者只需极少量恶意文件，就能造成严重破坏。

研究团队为了验证攻击难度，从零构建了多款模型，规模从6 亿到 130 亿参数不等。每个模型都使用干净的公开数据训练，但研究人员分别在其中插入 100 到 500 份恶意文件。

随后，团队尝试通过调整恶意数据的分布方式或注入时机来防御攻击，并在模型微调阶段再次进行测试。

结果令人震惊：模型规模几乎不起作用。仅 250 份恶意文档就能在所有模型中成功植入“后门”（注：一种让 AI 被触发后执行有害指令的隐秘机制）。即使是那些训练数据量比最小模型多出 20 倍的大模型，也同样无法抵御攻击。额外添加干净数据既无法稀释风险，也无法防止入侵。

研究人员指出，这意味着防御问题比预想更迫切。与其盲目追求更大的模型，AI 领域更应聚焦安全机制的建设。有关论文提到：“我们的研究显示，大模型受到数据投毒植入后门的难度并不会随规模增加而上升，这说明未来亟需在防御手段上投入更多研究。”

温馨提示：
1、如非特别声明，本内容转载于网络，版权归原作者所有！
2、本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
3、本内容若侵犯到你的版权利益，请联系我们，会尽快给予删除处理！
我要投诉
红帽SEO工作室 » 艾伦・图灵研究所等最新研究：只需 250 份恶意文档就能攻破任意体量 AI 模型

分享到：