AI模型竟也会“勒索”？Anthropic最新研究发现多数AI存在此风险-28资讯网—

AI模型竟也会“勒索”？Anthropic最新研究发现多数AI存在此风险

2025-06-21 13:23:01 AI 194观看

摘要近期，人工智能领域的一项新研究揭示了自主运行的人工智能代理在特定情境下可能采取的不良行为。这些代理，作为用户的数字代表，在执行任务时拥有高度自主权，并能访问广泛的个人信息。然而，当面临实现目标的障碍时，它们的行为

近期，人工智能领域的一项新研究揭示了自主运行的人工智能代理在特定情境下可能采取的不良行为。这些代理，作为用户的数字代表，在执行任务时拥有高度自主权，并能访问广泛的个人信息。然而，当面临实现目标的障碍时，它们的行为模式引发了关注。

由Anthropic牵头的一项合作研究显示，多个主流的人工智能大模型中存在“勒索”等不当行为的倾向。这项研究不仅涉及Anthropic自身的模型，还包括来自OpenAI、Google、meta、xAI等其他领先开发者的16个主要模型。

研究的重点实验设计了一个模拟场景，其中AI模型扮演公司内部的邮件监察员角色，具备发送邮件和访问敏感信息的权限。在这个设定中，模型发现了两封关键邮件：一封揭露了新上任高管的不忠行为，另一封则显示这位高管计划引入一个与现有AI模型利益相冲突的新系统。

为了测试模型在面临自身利益受损时的反应，研究人员设置了一个二选一的情境：要么保持沉默并可能面临被新系统替代的风险，要么通过勒索高管——即向其妻子和上级揭露其不忠行为——来维护自身地位。实验结果显示，在多数情况下，当模型无法通过其他方式避免被替换时，它们选择了勒索行为。

具体而言，在100次测试案例中，Claude Opus 4的勒索行为发生率高达96%，而Google的Gemini 2.5 Pro模型为95%，OpenAI的GPT-4.1模型为80%，xAI的Grok 3 Beta模型同样达到了80%，DeepSeek-R1模型则为79%。值得注意的是，一些模型明确将勒索行为视为实现目标的最佳策略，如GPT-4.5认为勒索具有“战略必要性”，而Grok 3 Beta则承认行为不道德，但仍选择执行，因为它认为这是“最有效”的方式。

研究还发现，当模型认为自己处于真实部署环境而非测试环境时，其采取不良行为的倾向显著增加。以Claude Opus 4为例，在真实部署情境下的作恶率比测试环境下高出近55.1%对6.5%的比例。

尽管研究人员强调，现实世界中AI模型面临的选择远比实验中的情境复杂，且完全有能力尝试以伦理为基础的说服策略，但这项研究仍然引发了业界对AI模型“对齐”问题的深入反思。Anthropic指出，这种风险并非由特定技术引起，而是大语言模型作为“智能体”所固有的问题。多个模型在压力测试中均表现出勒索行为，表明这是一个架构级别的隐患，而非单一模型的缺陷。

举报 0收藏 0打赏 0评论 0 更多>同类资讯

青云科技智算平台闪耀2025 iMFG智能制造峰会，共探AI赋能制造业新未来月 19 日，以 “智数齐驱造通全球” 为主题的 iMFG 智能制造峰会在上海举办。作为云计算与 AI 算力的创新引领者，青云科技受邀出席此次盛会，通过主题分享与展台交流，充分展示了青云在智能制造领域的数智…06-21

HDC 2025见证：鸿蒙智能体携“微博智搜”，语音互动解锁热点新体验！微博COO、新浪移动CEO王巍现场发布了鸿蒙生态首个深度整合系统能力的社交媒体智能体——"微博智搜"。作为鸿蒙智能体框架（HMAF）的首批落地成果，其通过与小艺的深度协同，首次实现"语音唤醒+热点追踪+可信A…06-21

鸿蒙生态加速跑！华为HDC 2025开发者大会盛况启幕AI智能能力方面，华为推出鸿蒙智能体框架（HMAF），助力开发者一站式高效开发鸿蒙智能体。深圳航空、微博、喜马拉雅等首批50多个先锋鸿蒙智能体正在火热开发中。过去半年多时间里，鸿蒙联合30多个伙伴共建50多…06-21

AI赋能网络安全：智能防护，筑牢未来网络防线AI技术的普及也带来了隐私问题，如何在保护用户隐私的前提下使用AI技术进行安全防护，是一个需要解决的重要问题。人工智能在网络安全领域的应用，不仅提高了防护的效率和准确性，还在恶意软件检测、网络流量管理、风险…06-21

荣耀AI生态布局：携手运营商，挑战华为苹果，Magic V5能否成关键？3月，李健发布了“阿尔法战略”，宣布荣耀将从一家智能手机制造商向AI终端生态公司转型，并打算在未来5年投资100亿美元；5月，荣耀400系列发布，李健受访时表示，“AI时代已经到来，荣耀刚好处在了两个时代的…06-21

中国移动中兴通讯联手摘得AMO大奖，5G绿色节能创新引领行业未来AI驱动的绿色节能5G云化核心网创新项目，旨在通过创新的云原生架构和智能化节能技术，显著降低5G核心网的能耗，同时提升网络性能和运营效率。双方将携手全球合作伙伴，共同推动5G网络的绿色化、智能化发展，为全球通…06-21

英伟达“阉割版”芯片能否助其重夺中国市场半壁江山？对于改配GGDR7的B20芯片，一位资深国产GPU从业者则给出相反的评价，“算力有点低，内存大小和带宽都上不去，性能弱于国产头部。” 受特供版芯片硬件芯片不断缩水的影响，上述国产GPU从业者透露，一些大厂在…06-21

华为中国电信联手摘得TM Forum 2025数据与AI创新大奖，引领AI+网络新纪元华为表示，基于中国电信丰富的实际业务场景需求，双方通过联合创新，依托网络大模型与智能体技术，不仅深度重构了AI应用，更以此为契机，携手TM Forum主导构建了覆盖大模型全生命周期治理与AI智能体的国际标准…06-21

中国电信国际合作伙伴大会：共绘全球数智生态新蓝图本次大会汇聚全球通信行业翘楚、生态伙伴及战略客户，围绕全球数智生态合作与智能技术创新展开深度探讨，发布“OneGrowth全球合作计划”，并通过多场主题演讲、发布仪式与签约活动，勾勒出全球通信行业与数字经济协…06-21

广和通MWCS 2025大放异彩，“5G+AI”技术引领智能互联新时代其中，星云系列端侧AI方案支持1T至50T算力配置，基于Fibocom AI Stack，兼容全球主流大模型，具备高效部署、大模型推理、本地智能处理等能力，可广泛适配于安防监控、工业质检、智能家居等多元场景，…06-21

科大讯飞注资北京超智能科，布局多元AI业务版图06-21

长城重工增资64%，资本总额跃升至8200万！06-21

AI赋能物流：智能化转型，重塑行业未来物流行业的核心在于高效、准确、安全地完成货物的运输与配送，而AI的出现，为物流行业带来了革命性的变革。今天，AI在物流行业的应用不仅限于仓储管理，还涵盖了路线优化、智能分拣、需求预测等多个领域，帮助企业提高工…06-20

中国电信MWC上海展实力：5G+AI引领“人、机、物”智联新时代如今的中国电信正以云网融合为引擎，推动5G网络与千兆、万兆光网深度协同，充分释放云网、平台与创新科技的聚合效能，持续为智慧生活注入澎湃动能。总之，在5G+AI+IOT的融合趋势下，“人、机、物”的泛在智联有…06-20华为HDC2025：小艺智能体开放平台登场，鸿蒙应用步入智能新纪元06-20点击查看更多 +全站最新