AI“高考”成绩出炉:数学全灭
2024-06-20 15:13:40 手机 100观看
摘要 近日,上海人工智能实验室公布了首个AI高考全卷评测结果,展示了GPT-4o与六个开源模型在面对高考语文、数学、英语试卷时的表现。此次参与测试的开源模型如下:
Mixtral 8x22B:法国AI公司Mistral于2024年4月17日开源的对话

近日,上海人工智能实验室公布了首个AI高考全卷评测结果,展示了GPT-4o与六个开源模型在面对高考语文、数学、英语试卷时的表现。H9M28资讯网——每日最新资讯28at.com

此次参与测试的开源模型如下:H9M28资讯网——每日最新资讯28at.com


H9M28资讯网——每日最新资讯28at.com

  • Mixtral 8x22B:法国AI公司Mistral于2024年4月17日开源的对话模型。
  • Yi-1.5-34B:零一万物公司于2024年5月12日开源的Yi-1.5系列最大的模型。
  • GLM-4-9B:智谱AI于2024年6月4日推出的最新一代预训练模型GLM-4系列的开源版本。
  • InternLM2-20B-WQX:上海人工智能实验室于2024年6月4日开源的书生・浦语2.0系列文曲星大语言模型。
  • Qwen2-57B:阿里巴巴于2024年6月6日开源的Qwen2系列MoE对话模型。
  • Qwen2-72B:阿里巴巴于2024年6月6日开源的72B稠密模型。


H9M28资讯网——每日最新资讯28at.com

此次选择的六款模型均在高考前开源,这避免了开发者使用高考试题训练模型,从而“作弊”。H9M28资讯网——每日最新资讯28at.com

此次测试结果如下:H9M28资讯网——每日最新资讯28at.com

H9M28资讯网——每日最新资讯28at.com

可以看出,总成绩方面阿里的Qwen2-72B排名第一,成绩303分;GPYT-4o得分296分排名第二;第三则是来自上海人工智能实验室的InternLM2-20B-WQX,295.5分。H9M28资讯网——每日最新资讯28at.com

不过,有趣的是,数学成为了此次测试中所有大模型的短板,150分的试卷,没有一款模型能够达到90分的及格分。H9M28资讯网——每日最新资讯28at.com

从结果来看,目前各家的大模型对于语义理解、文字沟通已经有了相对不错的表现,但面对数学这样强逻辑运算的领域,AI还是会力不从心。H9M28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-22-95035-0.htmlAI“高考”成绩出炉:数学全灭

声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

显示全文

上一篇:MIX Flip消息汇总:可能是最强8Gen3小折叠

下一篇:产能充足 华为Pura 70系列也开始降价了

最新热点