新研究:人类读指针钟准确率近九成,顶尖AI模型准确率仅一成多
2025-09-15 11:51:32 AI 2观看
摘要一项名为“ClockBench”的全新测试揭示,人类在读取指针式时钟方面的准确率高达89.1%,而当前最先进的人工智能模型准确率仅为13.3%。这一差距凸显了AI在视觉推理能力上与人类的显著差异,尤其是在处理复杂视觉信息时,AI的表

一项名为“ClockBench”的全新测试揭示,人类在读取指针式时钟方面的准确率高达89.1%,而当前最先进的人工智能模型准确率仅为13.3%。这一差距凸显了AI在视觉推理能力上与人类的显著差异,尤其是在处理复杂视觉信息时,AI的表现远未达到预期水平。boL28资讯网——每日最新资讯28at.com

boL28资讯网——每日最新资讯28at.com

该测试由研究者阿莱克·萨法尔设计,旨在通过定制化的指针式时钟数据集,评估AI在视觉推理任务中的表现。测试中,来自6家企业的11个大型语言模型与5名人类参与者展开对比。数据集包含180个独特的指针式时钟,涵盖36种钟面设计,融合了罗马数字与阿拉伯数字、不同朝向、时针标识、镜像布局及彩色背景等元素,确保测试的复杂性和多样性。boL28资讯网——每日最新资讯28at.com

每个时钟需通过四类问题测试:读取时间、时间计算、按特定角度调整指针及时区转换。为保证公平性,数据集从零构建,避免与模型训练数据重叠。测试结果显示,AI模型在读取时间时的中位误差达1小时,而人类的中位误差仅为3分钟。性能最差的AI模型误差甚至接近3小时,几乎与随机猜测无异。boL28资讯网——每日最新资讯28at.com

在参与测试的AI模型中,谷歌旗下的Gemini 2.5 Pro以13.3%的准确率位居榜首,Gemini 2.5 Flash和GPT-5分别以10.5%和8.4%的准确率紧随其后。然而,Grok 4模型的表现令人意外,其准确率仅0.7%,且将63.3%的时钟判定为“无效”,远高于实际无效时钟的比例(180个中仅37个)。这种过度谨慎的策略虽在技术上增加了正确答案数量,但并未真正提升模型能力。boL28资讯网——每日最新资讯28at.com

boL28资讯网——每日最新资讯28at.com

测试还发现,钟面特征对AI判断影响显著。当钟面采用罗马数字时,AI准确率骤降至3.2%;采用圆形数字时,准确率也仅为4.5%。秒针、彩色背景及镜像布局均会干扰AI的判断。相比之下,仅含时针的时钟(准确率23.6%)和采用阿拉伯数字的标准时钟,能让AI取得相对更好的成绩。boL28资讯网——每日最新资讯28at.com

一个意外发现是,AI模型在成功读取时间后,能正确完成时间计算、指针调整或时区转换任务。这表明,AI的挑战并非在于时间相关的数学运算,而在于从视觉信息中提取时间的初始步骤。萨法尔分析,原因可能包括:指针式时钟读取对视觉推理能力要求极高;罕见或特殊的钟面设计在训练数据中极少出现;以及将视觉信息转化为文字描述对当前AI模型而言难度较大。boL28资讯网——每日最新资讯28at.com

ClockBench被定位为长期基准测试,其完整数据集目前保密,以避免污染未来AI的训练过程,但已有一个公开版本供测试使用。尽管AI在该测试中得分普遍较低,萨法尔认为,性能最佳的模型已展现出基础的视觉推理能力,优于随机猜测。然而,这些能力能否通过扩大现有方法规模提升,还是需要全新技术路径突破,仍是一个待解的问题。boL28资讯网——每日最新资讯28at.com

此前,中国一项研究也曾发现多模态语言模型存在类似短板,但当时GPT-4o模型在包含“读时钟、读仪表”的任务中准确率达54.8%。此次ClockBench测试中,AI最高准确率仅为13.3%,既表明新基准测试难度显著提升,也反映出AI在时钟读取能力上并未取得明显进步。boL28资讯网——每日最新资讯28at.com

   更多>同类资讯​OpenAI未来六年算力与研发投入或达3500亿美元,2030年盈利稳定性存疑​09-14海马emoji是否存在?ChatGPT等AI深陷“记忆迷局”反复纠错难自明09-14蚂蚁开源联合Inclusion AI发布大模型生态全景图,呈现AI开源新特征与三大开发趋势09-14OpenAI称GPT-5有博士级能力,谷歌DeepMind CEO:尚缺全面博士能力,AGI或需5到10年09-14缺钱仍具洞察:陶哲轩直指AI在数学研究中隐性目标被忽视之困09-14谷歌DeepMind CEO:当前AI系统难达博士级,GPT-5综合能力被指差距大09-14OpenAI 2024-2030年拟投巨资:算力租赁与研发成本高企,盈利前景存疑09-14岳麓大会十二年:从“闭门论道”到“链上生长”,湖南数字生态如何崛起?09-14谷歌DeepMind CEO:当前AI系统难达博士级,GPT-5能力被指夸大09-14新学期新气象!北京1400余所中小学全学段开设人工智能通识课09-14宇树王兴兴福耀科大开讲:AI时代机遇均等,新生当怀热忱逐梦前行09-14蚂蚁开源2025外滩大会发布大模型全景图,AI开发现三大趋势:工具、路线与生态分化月 13 日,在 2025 Inclusion·外滩大会AI开源见解论坛上,蚂蚁开源联合Inclusion AI 发布了全新的《全球大模型开源开发生态全景与趋势告》。本次发布的大模型开源开发生态全景图共收录了…09-14​对话京东方陈炎顺:AI驱动产业升级,未来三年500亿研发携手伙伴共拓新局​“早在2024年初,京东方就将AI提高到了企业的整体发展战略”,陈炎顺对作者表示,“一方面我们成立了AI+创新与应用委员会,要求以营业收入的0.5%来用于AI的研发。 陈炎顺指出,从CES到SID等国际展会上…09-14OpenAI奥尔特曼坦言:ChatGPT问世后,模型细微调整牵动数亿人思维行为致其难眠9月14日消息,据《财富》报道,OpenAI CEO 萨姆·奥尔特曼在接受采访时表示,“自从 ChatGPT 推出以来,我就没睡过一个好觉。” 奥尔特曼描述了监管这项如今每天有数亿人使用的技术的压力,他担忧的…09-14上海创智学院:90后导师领航 博士CEO逐梦 机器人奇境挑战未来2023年,刘鹏飞完成美国博后工作回国加盟上海交通大学,去年以双聘的形式加盟创智学院,他深深感受时代的机遇正在眼前——“三个低概率事件”交汇:智能革命的发生、创智学院模式的独一无二,学院对师生资源的倾斜。就…09-14点击查看更多 +全站最新鸿蒙智行MPV新车谍照现身 智界品牌或迎新成员 明年上半年有望上市鸿蒙智行MPV新车谍照现身 智界品牌或迎新成员 明年上半年有望上市岳麓大会十二年:从“闭门论道”到“链上生长”,湖南数字生态如何崛起?岳麓大会十二年:从“闭门论道”到“链上生长”,湖南数字生态如何崛起?抖音图文创作新思路:精选素材+用心运营,轻松开启自媒体变现路!抖音图文创作新思路:精选素材+用心运营,轻松开启自媒体变现路!方形CMOS加持!iPhone 17前置摄像头如何打破自拍构图限制?方形CMOS加持!iPhone 17前置摄像头如何打破自拍构图限制?​杭州全球农创客大赛落幕:AI养猪、超滤净水,青年科技绘就农业新蓝图​​杭州全球农创客大赛落幕:AI养猪、超滤净水,青年科技绘就农业新蓝图​亿级卖家吞吞揭秘:TikTok美区直播如何选渠道、控成本、定布局?亿级卖家吞吞揭秘:TikTok美区直播如何选渠道、控成本、定布局?热门内容
  • 热度攀升!千亿科技龙头频获机构调研,业务增长透露哪些行业新动向?
  • 苹果加速AI布局,或收购两家法国AI初创企业
  • DeepSeek V3.1大模型升级,适配国产新芯片,性能显著提升
  • 苹果秋季发布会亮相iPhone 17系列:"史上最薄"Air登场,Pro Max 2TB版定价17999元
  • ​小米16系列或提前登场,首发骁龙8 Elite Gen5,9月机圈大战一触即发​
  • 苹果AI布局加速,或将斥巨资收购欧洲两大AI初创企业
  • 红米Note15系列前瞻:7s芯片、7000mAh大电池,防水新标杆即将登场
  • 华为智能手表登顶全球,苹果需直面挑战求变革
  • 科创板AI基金8月22日净值飙升7.79%,重仓股表现抢眼
  • vivo X300系列新机入网:首发LYT-828+2亿像素,卫通版支持北斗卫星短信
  • ‍字节跳动千人芯片团队架构调整,转至新加坡子公司Picoheart引关注‍
  • 苹果加速布局中国市场!Apple Intelligence和新版Siri或年底至明年上线
  • OpenAI冲刺5000亿估值,GPT-5遇冷:资本狂欢与技术瓶颈的碰撞
  • 华为云重组风暴:多部门整合,聚焦AI领域引发关注
  • 科大讯飞2026秋招启动,毕业两年内可投,多样岗位等你来选!
本栏最新岳麓大会十二年:从“闭门论道”到“链上生长”,湖南数字生态如何崛起?岳麓大会十二年:从“闭门论道”到“链上生长”,湖南数字生态如何崛起?新学期新气象!北京1400余所中小学全学段开设人工智能通识课新学期新气象!北京1400余所中小学全学段开设人工智能通识课宇树王兴兴福耀科大开讲:AI时代机遇均等,新生当怀热忱逐梦前行宇树王兴兴福耀科大开讲:AI时代机遇均等,新生当怀热忱逐梦前行蚂蚁开源2025外滩大会发布大模型全景图,AI开发现三大趋势:工具、路线与生态分化蚂蚁开源2025外滩大会发布大模型全景图,AI开发现三大趋势:工具、路线与生态分化​对话京东方陈炎顺:AI驱动产业升级,未来三年500亿研发携手伙伴共拓新局​​对话京东方陈炎顺:AI驱动产业升级,未来三年500亿研发携手伙伴共拓新局​OpenAI奥尔特曼坦言:ChatGPT问世后,模型细微调整牵动数亿人思维行为致其难眠OpenAI奥尔特曼坦言:ChatGPT问世后,模型细微调整牵动数亿人思维行为致其难眠

本文链接:http://www.28at.com/showinfo-45-27565-0.html新研究:人类读指针钟准确率近九成,顶尖AI模型准确率仅一成多

声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

显示全文

上一篇:美国最大出版商CEO控诉谷歌:用单一爬虫抓内容助力AI,却让出版商陷入困境

下一篇:​OpenAI未来六年算力与研发投入或达3500亿美元,2030年盈利稳定性存疑​

最新热点