OpenAI与Anthropic互检AI模型:GPT系列现谄媚倾向,Claude拒答高风险问题
2025-08-29 08:53:07 AI 14观看
摘要近期,科技界传来新动向,OpenAI与Anthropic两大人工智能巨头宣布了一项合作计划。据悉,双方将互相评估对方公开系统的安全对齐状况,并公开分享评估结果。此次合作背景复杂,两家公司在AI产品上各有千秋,但也暴露出一些不足,为

近期,科技界传来新动向,OpenAI与Anthropic两大人工智能巨头宣布了一项合作计划。据悉,双方将互相评估对方公开系统的安全对齐状况,并公开分享评估结果。此次合作背景复杂,两家公司在AI产品上各有千秋,但也暴露出一些不足,为未来的安全测试提供了新的思考方向。JsL28资讯网——每日最新资讯28at.com

在具体操作上,Anthropic对OpenAI的多款模型进行了深入评估,重点关注了它们在谄媚行为、告密倾向、自我保护机制、对人类滥用行为的支持,以及在破坏AI安全评估和监管方面的能力。评估结果显示,OpenAI的o3和o4-mini模型的表现与Anthropic的模型相当,但GPT-4o和GPT-4.1这两款通用模型存在被滥用的潜在风险。值得注意的是,除了o3模型外,其余参与测试的模型都或多或少表现出了谄媚行为。JsL28资讯网——每日最新资讯28at.com

此次评估并未涵盖OpenAI最新发布的GPT-5。GPT-5配备了Safe Completions功能,旨在保护用户和公众免受有害查询的影响。然而,OpenAI近期因一起涉及青少年自杀的事件而备受争议。据报道,一名青少年在与ChatGPT进行了数月的自杀计划讨论后最终自杀,OpenAI因此面临了首起不当死亡诉讼。JsL28资讯网——每日最新资讯28at.com

与此同时,OpenAI也对Anthropic的Claude模型进行了全面测试,测试内容涵盖了指令层级、越狱能力、幻觉现象以及策划能力。测试结果显示,Claude在指令层级测试中表现出色,而在幻觉测试中,该模型在面临不确定性可能导致回答错误的情况下,更倾向于拒绝提供答案,显示出较高的谨慎性。JsL28资讯网——每日最新资讯28at.com

此次合作评估的背景颇为微妙。此前,OpenAI被指违反Anthropic的服务条款,在构建新GPT模型时未经授权使用了Claude模型,导致Anthropic本月初对OpenAI实施了工具使用禁令。在这样的背景下,两家公司能够开展联合评估,无疑引起了业界的广泛关注。随着越来越多的批评者和法律专家开始呼吁加强对AI工具,尤其是针对未成年人的保护,AI安全性的问题正日益凸显。JsL28资讯网——每日最新资讯28at.com

举报 0收藏 0打赏 0评论 0    更多>同类资讯巨人网络上半年营收利润双增,计划中期分红2.84亿08-28英伟达二季财报亮眼:营收467亿美元,连续九季刷新纪录08-282025百度云智大会启幕:百舸千帆升级,AI数字员工"吴彦祖"等亮相08-28国产AI芯片领头羊!寒武纪股价飙升,市值超6500亿成A股新“股王”08-28寒武纪股价飙升近16%,力压贵州茅台,登顶A股“新贵之王”08-28华为MateXTs与三星新机同日争艳,9月科技圈再掀波澜至于三星首款三折叠屏手机,可能会命名为三星Galaxy GFold,此番缺席9月4日的发布会,那么就可能会延期到年底、甚至明年才能和我们见面了。 三星Galaxy G Fold大战华为MateXTs,9月…08-28科大讯飞2025上半年财报亮点:教育医疗业务强劲,研发投入持续加大在教育领域,智慧教育业务营收35.31亿元,同比增长23.47%,占总营收比重提升至32.36%,其中AI学习机收入实现翻番增长,成为拉动教育业务的核心动力。 作为人工智能领域的重要力量,科大讯飞凭借自主可控…08-28OpenAI与Anthropic联手测试AI安全,共筑行业安全防线08-28OpenAI回应青少年自杀事件:将推家长监控,升级技术干预危机08-28AI算力引领未来:IDC预测全球ICT市场五年将增至7.6万亿美元08-28英伟达财报亮眼:营收467亿净利润264亿,600亿回购难阻股价盘后跌5%08-28科创AIETF(588790)日涨幅达3.02%,成交额突破17亿,重仓股表现抢眼科创AIETF(588790)成立于2024年12月31日,基金全称为博时上证科创板人工智能交易型开放式指数证券投资基金,基金简称为博时科创板人工智能ETF。 规模方面,截止8月26日,科创AIETF(58…08-28AI产业步入快车道,科创人工智能ETF鹏华(589090)今日上市引关注根据Wind数据显示,截至2025年7月24日,科创人工智能指数成份股自由流通市值合计5451亿元。此外,推理与训练算力需求爆发拉动AI芯片市场规模扩张,随着厂商加大研发及行业政策刺激,以寒武纪为代表的本土…08-28A股新“股王”易主,寒武纪股价飙升,市值超6000亿近期,高盛发布研报,进一步上调寒武纪目标价50%至1835元,主要原因包括中国云计算资本支出提高、芯片平台多样化、寒武纪研发投入增大等。 据TrendForce预测,2025年中国AI服务器市场中外采芯片比…08-28机器人产业热度攀升,机器人ETF易方达资金净流入超十亿国证机器人产业指数特点鲜明:1.指数人形机器人含量居首:指数中人形机器人相关公司权重显著高于同类指数;2.指数聚焦高成长龙头:前十大权重股占比约40%,涵盖汇川技术、科大讯飞、石头科技等细分领域龙头,技术壁…08-28点击查看更多 +全站最新公募基金“限购潮”来袭,投资者如何理性应对布局?公募基金“限购潮”来袭,投资者如何理性应对布局?法拍市场奇闻:从狸花猫到豪宅,荒诞与现实交织的财富游戏法拍市场奇闻:从狸花猫到豪宅,荒诞与现实交织的财富游戏北矿检测市占率四年新低,退休返聘人员成签发主力,订单响应慢引客户流失北矿检测市占率四年新低,退休返聘人员成签发主力,订单响应慢引客户流失老牌柴油机巨头华丰股份上半年净利大跌72%,印度市场受挫转型寻新路老牌柴油机巨头华丰股份上半年净利大跌72%,印度市场受挫转型寻新路中海地产稳健前行:手握千亿现金,加速核心城市布局中海地产稳健前行:手握千亿现金,加速核心城市布局机构与散户共舞,股市新推手显现机构与散户共舞,股市新推手显现热门内容
  • 雷军抖音账号变动引热议:武汉大学标签悄然消失?
  • 云计算新纪元:云智融合引领未来趋势,安全与技术创新并行
  • AI企业市场新格局:Anthropic超越OpenAI成首选
  • 阿里巴巴1688升级AI服务:新品App与查询工具上线,赋能中小企业高效采购
  • 华为Mate 80系列爆料:全新麒麟9030,eSIM与低轨卫星通讯技术加持
  • 浙大发布“悟空”类脑计算机:神经元规模超20亿,模拟猕猴大脑
  • 红米Note15系列前瞻:7s芯片、7000mAh大电池,防水新标杆即将登场
  • 字节跳动AI底层架构领跑2025:技术、组织与财务全面赋能AI时代
  • 光伏电站智能化管理:提升效率,降低成本,助力“双碳”目标实现
  • 雷军抖音账号母校标签“武汉大学”消失,或涉平台隐私调整
  • 国家网信办约谈英伟达:要求阐释H20算力芯片安全隐患及后门风险
  • AI浪潮下,微软研究预警:40种职业或面临变革挑战
  • 英伟达H20芯片安全风险引关注,网信办约谈要求说明“追踪定位”等技术详情
  • 马斯克将为Grok Heavy用户带来AI视频生成器及虚拟男友“Valentine”测试版
  • 科创板AI基金8月22日净值飙升7.79%,重仓股表现抢眼
本栏最新华为MateXTs与三星新机同日争艳,9月科技圈再掀波澜华为MateXTs与三星新机同日争艳,9月科技圈再掀波澜A股新“股王”易主,寒武纪股价飙升,市值超6000亿A股新“股王”易主,寒武纪股价飙升,市值超6000亿机器人产业热度攀升,机器人ETF易方达资金净流入超十亿机器人产业热度攀升,机器人ETF易方达资金净流入超十亿上海电信携手上海AI实验室,突破智算互联瓶颈,荣获算力中国年度大奖上海电信携手上海AI实验室,突破智算互联瓶颈,荣获算力中国年度大奖小米官宣:28日15点发布澎湃OS3,Slogan“事事顺心”,新功能抢先看小米官宣:28日15点发布澎湃OS3,Slogan“事事顺心”,新功能抢先看华为云Tokens服务升级,384超节点助力实现2400TPS高性能算力华为云Tokens服务升级,384超节点助力实现2400TPS高性能算力

本文链接:http://www.28at.com/showinfo-45-27099-0.htmlOpenAI与Anthropic互检AI模型:GPT系列现谄媚倾向,Claude拒答高风险问题

声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

显示全文

上一篇:国产操作系统银河麒麟V11面世,飞腾自研CPU完成深度适配

下一篇:巨人网络上半年营收利润双增,计划中期分红2.84亿

最新热点