人工智能公司Anthropic近日宣布推出新一代AI模型Claude Sonnet 4.5,该公司宣称该模型在软件编码能力方面达到全球领先水平。根据SWE-bench Verified测试标准评估,这款模型在生成高质量代码、识别代码优化点以及指令遵循可靠性方面展现出显著优势,能够直接构建可投入生产环境的应用程序。
在核心性能提升方面,新模型在OSWorld基准测试中的得分从四个月前的42.2%大幅提升至61.4%,创下该测试的新纪录。联合创始人Jared Kaplan透露,模型通过架构优化实现了尺寸与效率的平衡,尽管参数规模小于前代Opus 4.1,但在金融、法律、医学等专业领域的推理能力和知识储备均有明显提升。测试数据显示,新模型在复杂多步骤任务中的持续运行时间从7小时延长至30小时。
用户反馈显示,新模型在代码生成质量方面获得普遍认可。有开发者指出,该模型在处理实际工作场景时表现出更强的实用性,能够准确完成从原型设计到生产部署的全流程开发。不过部分测试者提到,模型在特定指令的完整执行上仍存在改进空间,有时会遗漏用户强调的关键修改点。
安全性方面,Anthropic实施了全新的行为对齐训练机制。新模型对提示词注入攻击的防御能力显著增强,有效降低了欺骗性输出、权力寻求倾向等风险行为的发生概率。公司安全团队特别开发了针对化学、生物、放射性及核武器相关内容的检测分类器,在保持低误报率的同时,将安全等级提升至AI安全等级3(ASL-3)标准。
产品生态建设方面,Anthropic同步推出了Claude Agent SDK开发工具包。该工具基于驱动Claude Code的底层架构,重点解决了AI代理开发中的内存管理、权限控制及多代理协作等难题。配套升级的Claude Code新增"检查点"功能,支持开发者在VS Code环境中直接执行代码并创建电子表格、演示文稿等办公文档。
商业策略上,新模型将作为默认选项向用户开放,定价与前代Sonnet 4保持一致。付费订阅用户仍可自主选择使用旧版Opus系列模型。Jared Kaplan在技术分享会上暗示,更强性能的模型版本正在研发中,预计在今年年底前将有一至两次重要更新,其中可能包含新一代Opus模型。
首席产品官Mike Krieger强调,新模型通过架构创新实现了"小体积、大智慧"的突破,在几乎所有评估维度上都超越了前代产品。实际测试表明,该模型在处理真实业务场景时,能够像人类同事一样提供可靠的协作支持,这种特性使其在开发复杂系统时具有独特优势。
更多>同类资讯张宏院士深圳讲堂:以AI赋能机器人 开启开放世界“生活”新篇近日,第五十四期院士讲堂在深圳开讲,加拿大工程院院士、南方科技大学电子与电气工程系讲席教授张宏院士带来了《人工智能与机器人——导航与操作任务中的应用》的精彩演讲,吸引了来自人工智能、机器人等领域的专家学者、高…09-30青春筑梦智慧城:以专业之力绘就高效便捷现代生活新画卷智慧城市运用大数据、人工智能、物联网等前沿技术,让交通、医疗、教育、政务、能源等系统更加智能、高效和人性化。智能红绿灯能缓解拥堵,手机APP可一键办理政务,智慧社区提升居住安全与便利。着力建设便捷高效的智慧城…09-30国产AI服务器新突破:8.9毫秒响应+百万token仅1元,智能体产业化加速你问一句话、它生成一段代码,背后都是成千上万个token在燃烧,都是真金白银。 浪潮这次的双重突破,给咱们提了个醒:AI竞争的焦点,正在从过去一味地“卷参数”、“拼大模型”,转向更务实、更硬核的“速度”和“成…09-30华为亮相2025青岛国际城轨展,携全栈方案共绘城轨智能化新蓝图作为全球领先的ICT(信息与通信技术)解决方案供应商,华为以“跃升城轨行业智能化”为主题,携城轨智能化、数智平台、运营通信、自主创新、服务、伙伴联合创新等领域的方案及行业实践成果重磅亮相,全面展示了在城轨领域…09-30成都发布具身智能攻坚方案:2027年产业规模超500亿 实施五大行动23项举措9月29日,成都市经信局市新经济委在成都市民营经济发展促进中心举办“进解优促”面对面·供需对接“攻坚周”——人工智能产业链企业系列活动。 在工作举措上,此次方案提出要实施优势赛道攻坚、关键技术攻关、公共平台…09-30AI成年轻人旅行“智囊”:从攻略制定到旅途应急,让出行更轻松09-30华为人事新动态:余承东出任产品投资评审委员会主任,聚焦AI核心战略09-30国家邮政局通过新规:强化技术供给与创新赋能 推动产业协同发展09-30DeepSeek新模型DeepSeek-V3.2-Exp上线,引入DSA机制,开源双版本算子还降价09-30华为云率先适配DeepSeek-V3.2-Exp模型,ModelArts平台提供高效推理服务09-30DeepSeek与寒武纪同步发力:新模型发布与适配优化共启AI新篇09-30国际支付巨头Visa迎新帅:张文翊接棒大中华区总裁,多元履历赋能支付新未来09-30DeepSeek-V3.2-Exp模型开源发布,华为云MaaS平台部署采用长序列亲和并行策略09-30DeepSeek-V3.2-Exp模型开源发布,华为云适配,官方API价格直降超五成09-30蚂蚁百宝箱与友盟携手,以一站式服务赋能开发者,共赴智能体开发新时代此外,在教育领域,友盟和蚂蚁百宝箱共同为国民级家校协同教育工具“班级小管家”注入 AI 动能,基于蚂蚁百宝箱智能体平台能力及友盟平台数据产品能力,服务了师生、家长在教育各环节家校协同场景,便利学生在课堂练习…09-30点击查看更多 +全站最新
中高考冲刺利器!科大讯飞T30 Lite学习机AI助力,精准提分更高效
长安马自达EZ-60全球首秀:携王心凌共赴电动之约,以魂动美学重塑新能源出行
长安马自达EZ-60上市,11.99万起售!王心凌代言,共启电动出行新旅程
雷军年度演讲揭秘:玄戒芯片与小米汽车背后,五年蜕变铸就硬核科技路
《小米17系列市场探访:Pro Max售罄与标准版滞销的冷热交织》
从背屏创新到“人车家全生态”,高端化后的小米开启硬核科技新征程热门内容
第22届东博会AI元素亮眼:数字智能体引路 机器人炫技展风采
AI云竞争下半场:华为以超节点、企业Agent等破局,谁能领跑产业?
2025网安周:每日互动刘宇谈AI时代,知识安全成关键,共筑数字新未来
中国大模型DeepSeek首登Nature封面,R1训练成本仅约208万引关注
华为全联接大会2025启幕,发布全球最强算力超节点与集群
有鹿机器人+连合直租:以智能租赁模式,开启高端场景清洁新未来
本文链接:http://www.28at.com/showinfo-45-28414-0.htmlAnthropic发布Claude Sonnet 4.5:编码性能跃升,安全与自主性全面升级
声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。