一个创新性的开放平台SciArena近期正式启动,其核心目的在于评估大型语言模型(LLM)在科学文献处理任务中的实际效能,这一评估依据的是研究人员的真实偏好。平台运行初期,已明显观察到不同模型间存在效能差异。qZo28资讯网——每日最新资讯28at.com
SciArena由耶鲁大学、纽约大学以及艾伦人工智能研究所的专家携手打造,它专注于系统性地评测专有和开源LLM在科学文献处理方面的表现,这一领域此前缺乏系统的评估工具。qZo28资讯网——每日最新资讯28at.com
该平台采用了不同于传统基准测试的方法,效仿Chatbot Arena的模式,引入了真实研究人员的直接评估。用户在提交科学问题后,会收到两个由模型生成并附有相关引用的详细答案,然后用户根据判断选择更优的答案。这些引用的文献均通过专门的ScholarQA检索流程获取。qZo28资讯网——每日最新资讯28at.com
SciArena已积累了来自自然科学、工程学、生命科学和社会科学四大领域102位研究人员的超过13,000份评估数据,涵盖概念阐述、文献检索等多个维度。qZo28资讯网——每日最新资讯28at.com
在当前的排名中,OpenAI的o3模型独占鳌头,领先于Claude-4-Opus和Gemini-2.5-Pro。而在开源模型领域,Deepseek-R1-0528表现突出,甚至超越了部分专有系统。研究团队特别指出,o3在自然科学和工程科学领域的表现尤为亮眼。研究人员还发现,用户在评估时更注重引用与陈述的匹配度,而非单纯引用数量。答案长度等因素对SciArena的影响相对较小,与Chatbot Arena或Search Arena等平台有所不同。qZo28资讯网——每日最新资讯28at.com
尽管取得了显著进展,但自动化评估仍面临挑战。为此,团队还推出了一项名为SciArena-eval的新基准测试,旨在测试语言模型判断其他模型答案的能力。然而,即便是表现最佳的模型,也只有约65%的时间与人类偏好一致,这反映出当前LLM在科学领域的评估系统尚存局限。qZo28资讯网——每日最新资讯28at.com
SciArena平台现已向公众开放,其代码、数据及SciArena-eval基准测试均以开源形式提供,旨在助力开发更符合研究人员在科学信息任务中需求的模型。qZo28资讯网——每日最新资讯28at.com
举报 0收藏 0打赏 0分享 0 更多>同类资讯谷歌发布Gemini for Education:免费AI工具助力全球教育创新与公平07-03荣耀总裁方飞:苹果入局折叠屏,是激励也是新起点07-03OpenAI坚持英伟达与AMD,暂不全面采用谷歌TPU芯片07-03Crunchyroll新动画字幕出错,疑似AI生成引热议,观众呼吁保证创作质量07-03

三星Galaxy Z Fold新机:7月9日震撼发布,16GB+1TB高配来袭现在的手游和应用不断升级,对配置的要求越来越高,所以不少品牌推出自研芯片、性能引擎、算法等方面,进一步优化性能,提升新机体验。新机也被官方称为三星超轻薄折叠旗舰,看来今年的新折叠屏不断追求轻薄,甚至是与直板机…07-03

荣耀Magic V5震撼发布:轻薄折叠旗舰,搭载6100mAh大电池与骁龙8至尊芯片荣耀Magic V5采用全新AI交互方式,以更轻薄的折叠旗舰形态与行业领先的AI智能体实力,释放PC级生产力,开启智能交互体验的全新想象,用科技拓宽一小时的生命宽度,带来一辈子的温暖陪伴。荣耀正式宣布支持MC…07-03

中国移动新动作:九天人工智能科技公司成立,注册资本高达20亿07-03

荣耀Magic V5震撼发布:轻薄折叠旗舰,搭载6100mAh大电池与骁龙8至尊版07-03

荣耀Magic V5深度评测:轻薄新纪录,AI折叠屏新标杆在多设备联动上,荣耀MagicV5还可以自家的大屏PC、智能手表、智能耳机等智能联动,不仅支持手表解锁手机功能以及一键锁定手表,并支持双向查找,AI体验同步流转,在荣耀手表5 Ultra上,也可以直接唤醒…07-02

荣耀Magic V5震撼发布:纤薄新纪录,满血配置售价8999元起7月2日,荣耀推出了新一代旗舰大折叠手机——荣耀Magic V5,这款手机不仅再创多项大折叠手机纤薄世界纪录,还具有大折叠满血配置,并将AI与手机深度融合,搭载更为智慧化的使用方式。在护眼方面,此前在荣耀直板…07-02

荣耀Magic V5评测:轻薄新巅峰,全能AI折叠屏旗舰重塑标准在多设备联动上,荣耀MagicV5还可以自家的大屏PC、智能手表、智能耳机等智能联动,不仅支持手表解锁手机功能以及一键锁定手表,并支持双向查找,AI体验同步流转,在荣耀手表5 Ultra上,也可以直接唤醒…07-02

荣耀Magic V5震撼登场:纤薄新纪录,满血配置,售价8999元起7月2日,荣耀推出了新一代旗舰大折叠手机——荣耀Magic V5,这款手机不仅再创多项大折叠手机纤薄世界纪录,还具有大折叠满血配置,并将AI与手机深度融合,搭载更为智慧化的使用方式。在护眼方面,此前在荣耀直板…07-02

荣耀Magic V5深度评测:轻薄新标杆,AI折叠屏的全面进化07-02

荣耀Magic V5:超薄旗舰新标杆,AI交互重塑大折叠体验它的低温与常温性能差异大约在33.4%,也符合我们对于超薄大折叠的性能释放预期,同时即便是有着如此严格的温控策略,MagicV5的性能表现也依然要明显高于那些使用老平台的竞争对手。Magic V5不只是开创…07-02京东JoyInside携AI潮玩来袭,携手十余家机器人品牌打造智能生态07-02点击查看更多 +
全站最新
宇宙信使:揭秘玻璃陨石的奥秘与魅力

2025上半年机票均价740元,暑运旺季来临价格上扬至839元

美波音737客机飞行中襟翼掉落 疑似坠入居民区车道

美波音737客机飞行中襟翼掉落 疑似坠入居民区车道

马斯克旗下xAI Grok 4曝光,百亿融资助力“重塑知识库”计划

丰田汽车上调零部件采购价,力保6万家供应商稳定运营
热门内容- 高考志愿填报热潮中,夸克“深度搜索”成考生新宠,人均使用4次寻建议
- 马斯克宣布Grok 4大模型即将面世,或专为编程打造
- 高考志愿填报热潮下,夸克“深度搜索”助力考生,人均使用达4次
- 中国知网CNKI AI:重塑知识服务新生态,四大核心力引领未来
- 苹果AI「Apple Intelligence」国行版,终于要来了吗?
- QQ浏览器AI高考通新上线:智能生成高考志愿报告,助你科学填报!
- 火山引擎PromptPilot:一键优化指令,解锁AI大模型新效能
- 阿里领投硅基流动,清华系AI创企再获数亿融资,DeepSeek流量爆棚后新动作?
- 夸克高考志愿大模型上线,让每个考生拥有自己的AI志愿填报顾问!
- 字节跳动火山引擎发布豆包1.6与Seedance1.0,AI技术再升级成本大降
- 优志愿鸿蒙版上线,AI智能填报高考志愿,科学规划升学新路径
- 英伟达揽才:清华“天才少年”朱邦华携手焦剑涛加盟
- 淘天集团RecGPT大模型上线,电商推荐迎来个性化新升级
- 斯坦福评测:DeepSeek R1医疗AI大放异彩,成临床场景新冠军
- 《Artificial》今夏开机,揭秘OpenAI 2023年CEO罢免又复职风波
本栏最新
三星Galaxy Z Fold新机:7月9日震撼发布,16GB+1TB高配来袭

荣耀Magic V5震撼发布:轻薄折叠旗舰,搭载6100mAh大电池与骁龙8至尊芯片

中国移动新动作:九天人工智能科技公司成立,注册资本高达20亿

荣耀Magic V5震撼发布:轻薄折叠旗舰,搭载6100mAh大电池与骁龙8至尊版

荣耀Magic V5深度评测:轻薄新纪录,AI折叠屏新标杆

荣耀Magic V5震撼发布:纤薄新纪录,满血配置售价8999元起