谷歌 DeepMind 更新前沿安全框架，应对模型“阻止自己被人类关闭”等风险-网络资讯-红帽SEO工作室

当前位置：红帽SEO工作室网络资讯谷歌 DeepMind 更新前沿安全框架，应对模型“阻止自己被人类关闭”等风险

→ 源码教程下载地址见 →右侧下载链接 →点“登录购买”→注册登录购买后可见→
→ 这里没有广告，只有干货！给力项目更多教程，点此加入VIP会员,即可免费下载！
→ 每日分享你意想不到的网络思维！加入红帽VIP会员，感受一下网络赚钱的快感，点击进入了解。

9 月 22 日消息，谷歌 DeepMind 今天宣布更新核心 AI 安全文件“前沿安全框架”，将“前沿模型可能阻止人类关闭或修改自己”这一风险纳入考量。

从外媒 Axios 获悉，当前，一些新 AI 模型在测试中已展现出能制定计划、甚至用欺骗手段达成目标的能力。

新版前沿安全框架增加了一个新的“说服力”类别，旨在应对可能强大到足以改变用户信念的模型。谷歌将此风险称作“有害操控”，即 AI 模型具备强大的操控能力，且可能被滥用，在特定高风险场景中系统且显著地改变人们的信念和行为。

针对如何防范这种风险，谷歌 DeepMind 代表对 Axios 表示：“我们持续追踪这一能力，并开发了全新的评估体系，其中包括人类参与的实验，用于测量和测试相关能力。”

DeepMind 每年至少更新一次前沿安全框架，以识别新兴威胁，并将其标注为“关键能力等级”。谷歌指出，“若缺乏缓解措施，前沿 AI 模型可能在这些能力等级上造成严重危害。”

OpenAI 在 2023 年也推出了类似的准备度框架，但今年早些时候已将“说服力”从风险类别中移除。

谷歌 DeepMind

温馨提示：
1、如非特别声明，本内容转载于网络，版权归原作者所有！
2、本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
3、本内容若侵犯到你的版权利益，请联系我们，会尽快给予删除处理！
我要投诉
红帽SEO工作室 » 谷歌 DeepMind 更新前沿安全框架，应对模型“阻止自己被人类关闭”等风险

分享到：