谷歌 DeepMind 更新前沿安全框架,应对模型“阻止自己被人类关闭”等风险
2025-09-25 15:00:33 AI 15观看
摘要 9 月 22 日消息,谷歌 DeepMind 今天宣布更新核心 AI 安全文件“前沿安全框架”,将“前沿模型可能阻止人类关闭或修改自己”这一风险纳入考量。从外媒 Axios 获悉,当前,一些新 AI 模型在测试中已展现出能制定计划

9 月 22 日消息,谷歌 DeepMind 今天宣布更新核心 AI 安全文件“前沿安全框架”,将“前沿模型可能阻止人类关闭或修改自己”这一风险纳入考量。1Lo28资讯网——每日最新资讯28at.com

从外媒 Axios 获悉,当前,一些新 AI 模型在测试中已展现出能制定计划、甚至用欺骗手段达成目标的能力。1Lo28资讯网——每日最新资讯28at.com

1Lo28资讯网——每日最新资讯28at.com

新版前沿安全框架增加了一个新的“说服力”类别,旨在应对可能强大到足以改变用户信念的模型。谷歌将此风险称作“有害操控”,即 AI 模型具备强大的操控能力,且可能被滥用,在特定高风险场景中系统且显著地改变人们的信念和行为。1Lo28资讯网——每日最新资讯28at.com

针对如何防范这种风险,谷歌 DeepMind 代表对 Axios 表示:“我们持续追踪这一能力,并开发了全新的评估体系,其中包括人类参与的实验,用于测量和测试相关能力。”1Lo28资讯网——每日最新资讯28at.com

DeepMind 每年至少更新一次前沿安全框架,以识别新兴威胁,并将其标注为“关键能力等级”。谷歌指出,“若缺乏缓解措施,前沿 AI 模型可能在这些能力等级上造成严重危害。”1Lo28资讯网——每日最新资讯28at.com

OpenAI 在 2023 年也推出了类似的准备度框架,但今年早些时候已将“说服力”从风险类别中移除。1Lo28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-28059-0.html谷歌 DeepMind 更新前沿安全框架,应对模型“阻止自己被人类关闭”等风险

声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

显示全文

上一篇:Plaud 正式进驻中国大陆,Plaud Note Pro 等三款 AI 录音硬件全面发售

下一篇:百度智能云开源视觉理解模型 Qianfan-VL,基于自研昆仑芯 P800 芯片计算

最新热点