阿里巴巴与港中大携手:SCRIT系统赋能AI,开启自我纠错与进化新篇章
2025-09-19 18:00:20 AI 26观看
摘要在人工智能领域,一项突破性研究为AI大模型的自我改进能力开辟了新路径。这项由阿里巴巴Qwen团队与香港中文大学深圳分校、深圳大数据研究院联合完成的研究,提出了一种名为SCRIT的创新框架,让AI能够像人类一样具备自我反

在人工智能领域,一项突破性研究为AI大模型的自我改进能力开辟了新路径。这项由阿里巴巴Qwen团队与香港中文大学深圳分校、深圳大数据研究院联合完成的研究,提出了一种名为SCRIT的创新框架,让AI能够像人类一样具备自我反思和纠错能力。该成果发表于2025年COLM会议,论文《Self-Evolving Critique Abilities in Large Language Models》详细阐述了这一技术突破。wMx28资讯网——每日最新资讯28at.com

传统AI大模型虽然能够解决复杂问题,但在自我纠错方面存在明显短板。当人类评判员也难以判断答案质量时,AI往往无法自主发现错误。研究团队将这一挑战比喻为培养一个完全依赖外界指导的学生学会自我反思。此前的方法要么依赖昂贵的人工标注,要么需要更强大的AI模型作为指导,但这些方案在AI能力接近人类水平时面临瓶颈。wMx28资讯网——每日最新资讯28at.com

SCRIT系统的核心创新在于引入了对比学习机制。该系统通过分析标准答案与待评判答案的差异,使AI能够像经验丰富的教师一样,先理解正确解题思路,再发现错误所在。实验数据显示,采用这种方法的AI评判准确率显著提升:在明确错误答案的测试中,准确率从39.7%提高到50.0%;在混合答案测试中,从57.7%提升至62.1%;即使面对自我生成的答案,准确率也从61.7%稳步增长到62.9%。wMx28资讯网——每日最新资讯28at.com

为了训练这一系统,研究团队构建了庞大的数据工厂。他们从NuminaMath数据集出发,收集了45.2万个涵盖小学到奥林匹克竞赛难度的数学问题。通过让七个不同能力的AI模型生成解答,最终获得了66.5万个问题-解答对,其中正确与错误解答各占一半。这些数据经过严格筛选,确保每个问题都包含可供对比学习的正确和错误范例。wMx28资讯网——每日最新资讯28at.com

SCRIT的评判生成过程分为四个关键阶段:首先解析标准答案中的核心数学概念,然后逐步检查待评判答案的每个步骤,接着给出整体评判结论,最后提供完整的修正方案。特别值得注意的是,系统还会让不同正确解答相互学习,从而培养更灵活的评判思维。这种设计使AI能够欣赏多样化的解题方法,提高评判的全面性。wMx28资讯网——每日最新资讯28at.com

质量把控是SCRIT系统的另一大亮点。研究团队引入了自我验证机制,要求AI按照提出的修改建议重新解题,只有能得到正确答案的评判才会被采用。这一机制显著提高了评判质量:在初始生成的评判结果中,仅有51.4%能通过质量检测。不同难度问题的通过率差异明显,小学数学问题通过率达91.8%,而奥林匹克级别问题仅为27.1%。经过筛选,最终获得了34.2万个高质量的训练样本。wMx28资讯网——每日最新资讯28at.com

在错误识别测试中,SCRIT的表现更加突出。在PRM800K数据集上,F1分数从37.8%跃升至45.0%,提升幅度达19.0%。数学推理任务上的提升尤为显著,GSM8K数据集提升11.3个百分点,MATH数据集提升9.1个百分点。这些数据证明,SCRIT不仅能够判断答案对错,还能准确定位第一个出错步骤,就像医生能够精确找出病灶位置。wMx28资讯网——每日最新资讯28at.com

对比实验揭示了SCRIT成功的关键因素。研究发现,随着训练数据增加,对比评判方法的效果持续提升,而传统直接评判和错误注入方法很快遇到瓶颈。当训练数据达到17万个样本时,对比方法准确率达58.3%,远超直接方法的55.1%和错误注入方法的49.0%。模型规模对效果影响显著:参数从15亿扩展到720亿的过程中,评判准确率从41.7%大幅提升至58.3%,错误识别能力从12.5%猛增至45.1%。wMx28资讯网——每日最新资讯28at.com

研究过程中的一个意外发现扩展了SCRIT的应用前景。用科学推理问题训练的SCRIT版本,不仅在科学任务上表现优异,在数学任务上也保持竞争力。在ARC-C、GPQA、MMLU-STEM等科学推理基准测试中,系统实现了显著性能提升。特别是用科学数据训练的版本在平衡解答测试中取得67.4%的成绩,比原始模型提升14.6个百分点,显示出强大的跨领域学习能力。wMx28资讯网——每日最新资讯28at.com

系统设计的细节优化同样值得关注。自我验证机制虽然只带来0.8%的准确率提升,但在错误识别方面有3.0%的显著改进。使用多样化问题领域训练的系统,性能比单一领域训练的系统高1.4个百分点。有趣的是,训练数据中错误解答比例更高时(25%正确:75%错误),系统表现反而更好,说明见过更多错误的AI更擅长发现问题。wMx28资讯网——每日最新资讯28at.com

这项研究为AI发展开辟了新方向。在教育领域,配备SCRIT能力的AI教师能够像专业辅导员一样,准确识别学生思维中的错误并提供改进建议。在科研领域,它为解决"可扩展监督"难题提供了新思路,使AI能够在没有更强监督者的情况下持续改进。更广泛地说,这种自我对比和验证的机制可扩展到代码审查、文档写作、决策制定等多个需要质量把控的领域。wMx28资讯网——每日最新资讯28at.com

尽管当前版本主要适用于有明确正确答案的领域,如数学和科学推理,但其原理具有普遍适用性。研究团队指出,这项工作证明了AI可以通过内在机制实现自我改进,不再完全依赖外部指导。随着技术发展,未来的AI系统可能具备更全面的自我反思能力,这不仅会改变我们使用AI的方式,更可能推动AI技术发展进入新阶段。wMx28资讯网——每日最新资讯28at.com

   更多>同类资讯可灵AI数字人正式登场:极简操作实现高质输出,重塑数字人行业标准09-19华为徐直军:未来3年昇腾芯片将快速演进,2027年超节点集群规模达百万卡级09-19莫斯科团队研发SRMT技术:共享记忆赋能机器人,开启高效协作新篇章09-19小红书“利剑出鞘”:多维治理体系精准打击虚假营销生态09-19DeepSeek-R1登《自然》封面:AI大模型迈向科学严谨,融入更广科学交流圈09-19七年估值暴涨超70倍!80后博士领航国星宇航,商业航天征途盈利几何?09-19寒武纪2025半年业绩会:辟谣百万订单传闻,透露新一代芯片优化进展09-19寒武纪业绩会聚焦成长:AI算力需求激增,智能芯片迎发展新机遇09-19英伟达50亿美元注资英特尔,黄仁勋陈立武携手共拓AI与PC新未来09-19均胜电子新品亮相:AI头部总成、全域控制器等完善机器人产品矩阵本报讯(记者吴奕萱)9月18日,宁波均胜电子股份有限公司(以下简称“均胜电子”)举行机器人部件新产品发布会,正式公开机器人AI头部总成、基于英伟达Jetson Thor芯片的全域控制器和新一代机器人能源管理…09-19中科信息:引入脑机接口技术辅助智慧医疗,完成机器视觉全产业链布局9月18日晚间,中科信息(300678.SZ)披露投资者活动记录表,称公司目前未开展脑机接口业务,但根据智慧医疗业务的需要,引进脑机接口技术及设备作为辅助工具,研发基于光遗传调控的闭环脑机接口(BMI)系统…09-19宇树科技9年砥砺前行,上市在即,机器人赛道或迎新发展浪潮宇树科技的团队成员们日夜钻研,不断尝试新的技术和设计方案,经过无数次的失败与调整,2017 年,首款四足机器人 Laikago 问世,它的出现,虽然在性能上还有诸多不足,但对于宇树科技来说,却是迈出了坚实的…09-19​中文互联网基础语料3.0发布​:120GB高质量数据助力AI训练与发展​9 月 18 日消息,今日上午,在昆明召开的 2025 年国家网络安全宣传周人工智能安全治理分论坛上,中文互联网基础语料 3.0正式向社会发布。 在中央网信办相关部门指导下,中国网络空间安全协会会…09-19数联古今智绘文明 2025世界互联网大会文化遗产数字化论坛启幕开幕式后举行了主论坛,与会嘉宾围绕“保护·传承”“技术·创新”“产业·赋能”“开放·共治”四个议题展开深入讨论,着力探索数字化赋能文化遗产保护的新方法、新路径,推动文明交流互鉴。论坛期间,还举行了文化遗产数…09-19华为全联接大会2025发布全球最强算力超节点及集群 引领AI基础设施新方向[中国,上海,2025年9月18日] 今日,华为全联接大会2025在上海启幕,华为副董事长、轮值董事长徐直军发表题为“以开创的超节点互联技术,引领AI基础设施新范式”的主题演讲,正式发布全球最强算力超节点和集…09-19点击查看更多 +全站最新李荣浩意外“解锁”新身份,成iOS更新后创意二创灵感源?李荣浩意外“解锁”新身份,成iOS更新后创意二创灵感源?​苹果或于2025年四季度量产低价MacBook,A系列芯片+多彩设计能否掀起新热潮?​​苹果或于2025年四季度量产低价MacBook,A系列芯片+多彩设计能否掀起新热潮?​OPPO K13s与K13x正式开售:满级防水抗摔,799元起享超值体验OPPO K13s与K13x正式开售:满级防水抗摔,799元起享超值体验哈啰跨界Robotaxi,携蚂蚁宁德入局,两年内能否实现万辆规模突围?哈啰跨界Robotaxi,携蚂蚁宁德入局,两年内能否实现万辆规模突围?大连推进氢燃料电池汽车示范建设:聚焦产业链发展 部署关键任务大连推进氢燃料电池汽车示范建设:聚焦产业链发展 部署关键任务AI助力混合动力技术升级 “十五五”协同创新开启全能发展新篇章AI助力混合动力技术升级 “十五五”协同创新开启全能发展新篇章热门内容
  • 热度攀升!千亿科技龙头频获机构调研,业务增长透露哪些行业新动向?
  • 苹果加速AI布局,或收购两家法国AI初创企业
  • DeepSeek V3.1大模型升级,适配国产新芯片,性能显著提升
  • 苹果秋季发布会亮相iPhone 17系列:"史上最薄"Air登场,Pro Max 2TB版定价17999元
  • ​小米16系列或提前登场,首发骁龙8 Elite Gen5,9月机圈大战一触即发​
  • 国金证券:A股第三轮重估脚步临近,三类资产投资方向值得关注
  • 苹果加速布局中国市场!Apple Intelligence和新版Siri或年底至明年上线
  • 苹果AI布局加速,或将斥巨资收购欧洲两大AI初创企业
  • 红米Note15系列前瞻:7s芯片、7000mAh大电池,防水新标杆即将登场
  • WAVE SUMMIT大会新动态:文心大模型X1.1上线,多项能力显著跃升
  • 华为智能手表登顶全球,苹果需直面挑战求变革
  • 科创板AI基金8月22日净值飙升7.79%,重仓股表现抢眼
  • ‍字节跳动千人芯片团队架构调整,转至新加坡子公司Picoheart引关注‍
  • vivo X300系列新机入网:首发LYT-828+2亿像素,卫通版支持北斗卫星短信
  • 华为云重组风暴:多部门整合,聚焦AI领域引发关注
本栏最新寒武纪2025半年业绩会:辟谣百万订单传闻,透露新一代芯片优化进展寒武纪2025半年业绩会:辟谣百万订单传闻,透露新一代芯片优化进展寒武纪业绩会聚焦成长:AI算力需求激增,智能芯片迎发展新机遇寒武纪业绩会聚焦成长:AI算力需求激增,智能芯片迎发展新机遇英伟达50亿美元注资英特尔,黄仁勋陈立武携手共拓AI与PC新未来英伟达50亿美元注资英特尔,黄仁勋陈立武携手共拓AI与PC新未来均胜电子新品亮相:AI头部总成、全域控制器等完善机器人产品矩阵均胜电子新品亮相:AI头部总成、全域控制器等完善机器人产品矩阵中科信息:引入脑机接口技术辅助智慧医疗,完成机器视觉全产业链布局中科信息:引入脑机接口技术辅助智慧医疗,完成机器视觉全产业链布局宇树科技9年砥砺前行,上市在即,机器人赛道或迎新发展浪潮宇树科技9年砥砺前行,上市在即,机器人赛道或迎新发展浪潮

本文链接:http://www.28at.com/showinfo-45-27786-0.html阿里巴巴与港中大携手:SCRIT系统赋能AI,开启自我纠错与进化新篇章

声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

显示全文

上一篇:耶鲁大学打造MMVU测试:AI专业视频理解能力迎来“大考”

下一篇:可灵AI数字人正式登场 极简操作实现高质输出

最新热点