近日,上海人工智能实验室公布了首个AI高考全卷评测结果,展示了GPT-4o与六个开源模型在面对高考语文、数学、英语试卷时的表现。
此次参与测试的开源模型如下:
此次选择的六款模型均在高考前开源,这避免了开发者使用高考试题训练模型,从而“作弊”。
此次测试结果如下:
可以看出,总成绩方面阿里的Qwen2-72B排名第一,成绩303分;GPYT-4o得分296分排名第二;第三则是来自上海人工智能实验室的InternLM2-20B-WQX,295.5分。
不过,有趣的是,数学成为了此次测试中所有大模型的短板,150分的试卷,没有一款模型能够达到90分的及格分。
从结果来看,目前各家的大模型对于语义理解、文字沟通已经有了相对不错的表现,但面对数学这样强逻辑运算的领域,AI还是会力不从心。
本文链接:http://www.28at.com/showinfo-22-95035-0.htmlAI“高考”成绩出炉:数学全灭
声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。