一项名为“ClockBench”的全新测试揭示,人类在读取指针式时钟方面的准确率高达89.1%,而当前最先进的人工智能模型准确率仅为13.3%。这一差距凸显了AI在视觉推理能力上与人类的显著差异,尤其是在处理复杂视觉信息时,AI的表现远未达到预期水平。

该测试由研究者阿莱克·萨法尔设计,旨在通过定制化的指针式时钟数据集,评估AI在视觉推理任务中的表现。测试中,来自6家企业的11个大型语言模型与5名人类参与者展开对比。数据集包含180个独特的指针式时钟,涵盖36种钟面设计,融合了罗马数字与阿拉伯数字、不同朝向、时针标识、镜像布局及彩色背景等元素,确保测试的复杂性和多样性。
每个时钟需通过四类问题测试:读取时间、时间计算、按特定角度调整指针及时区转换。为保证公平性,数据集从零构建,避免与模型训练数据重叠。测试结果显示,AI模型在读取时间时的中位误差达1小时,而人类的中位误差仅为3分钟。性能最差的AI模型误差甚至接近3小时,几乎与随机猜测无异。
在参与测试的AI模型中,谷歌旗下的Gemini 2.5 Pro以13.3%的准确率位居榜首,Gemini 2.5 Flash和GPT-5分别以10.5%和8.4%的准确率紧随其后。然而,Grok 4模型的表现令人意外,其准确率仅0.7%,且将63.3%的时钟判定为“无效”,远高于实际无效时钟的比例(180个中仅37个)。这种过度谨慎的策略虽在技术上增加了正确答案数量,但并未真正提升模型能力。

测试还发现,钟面特征对AI判断影响显著。当钟面采用罗马数字时,AI准确率骤降至3.2%;采用圆形数字时,准确率也仅为4.5%。秒针、彩色背景及镜像布局均会干扰AI的判断。相比之下,仅含时针的时钟(准确率23.6%)和采用阿拉伯数字的标准时钟,能让AI取得相对更好的成绩。
一个意外发现是,AI模型在成功读取时间后,能正确完成时间计算、指针调整或时区转换任务。这表明,AI的挑战并非在于时间相关的数学运算,而在于从视觉信息中提取时间的初始步骤。萨法尔分析,原因可能包括:指针式时钟读取对视觉推理能力要求极高;罕见或特殊的钟面设计在训练数据中极少出现;以及将视觉信息转化为文字描述对当前AI模型而言难度较大。
ClockBench被定位为长期基准测试,其完整数据集目前保密,以避免污染未来AI的训练过程,但已有一个公开版本供测试使用。尽管AI在该测试中得分普遍较低,萨法尔认为,性能最佳的模型已展现出基础的视觉推理能力,优于随机猜测。然而,这些能力能否通过扩大现有方法规模提升,还是需要全新技术路径突破,仍是一个待解的问题。
此前,中国一项研究也曾发现多模态语言模型存在类似短板,但当时GPT-4o模型在包含“读时钟、读仪表”的任务中准确率达54.8%。此次ClockBench测试中,AI最高准确率仅为13.3%,既表明新基准测试难度显著提升,也反映出AI在时钟读取能力上并未取得明显进步。
更多>同类资讯OpenAI未来六年算力与研发投入或达3500亿美元,2030年盈利稳定性存疑09-14 海马emoji是否存在?ChatGPT等AI深陷“记忆迷局”反复纠错难自明09-14
海马emoji是否存在?ChatGPT等AI深陷“记忆迷局”反复纠错难自明09-14 蚂蚁开源联合Inclusion AI发布大模型生态全景图,呈现AI开源新特征与三大开发趋势09-14
蚂蚁开源联合Inclusion AI发布大模型生态全景图,呈现AI开源新特征与三大开发趋势09-14 OpenAI称GPT-5有博士级能力,谷歌DeepMind CEO:尚缺全面博士能力,AGI或需5到10年09-14
OpenAI称GPT-5有博士级能力,谷歌DeepMind CEO:尚缺全面博士能力,AGI或需5到10年09-14 缺钱仍具洞察:陶哲轩直指AI在数学研究中隐性目标被忽视之困09-14谷歌DeepMind CEO:当前AI系统难达博士级,GPT-5综合能力被指差距大09-14OpenAI 2024-2030年拟投巨资:算力租赁与研发成本高企,盈利前景存疑09-14
缺钱仍具洞察:陶哲轩直指AI在数学研究中隐性目标被忽视之困09-14谷歌DeepMind CEO:当前AI系统难达博士级,GPT-5综合能力被指差距大09-14OpenAI 2024-2030年拟投巨资:算力租赁与研发成本高企,盈利前景存疑09-14 岳麓大会十二年:从“闭门论道”到“链上生长”,湖南数字生态如何崛起?09-14谷歌DeepMind CEO:当前AI系统难达博士级,GPT-5能力被指夸大09-14
岳麓大会十二年:从“闭门论道”到“链上生长”,湖南数字生态如何崛起?09-14谷歌DeepMind CEO:当前AI系统难达博士级,GPT-5能力被指夸大09-14 新学期新气象!北京1400余所中小学全学段开设人工智能通识课09-14
新学期新气象!北京1400余所中小学全学段开设人工智能通识课09-14 宇树王兴兴福耀科大开讲:AI时代机遇均等,新生当怀热忱逐梦前行09-14
宇树王兴兴福耀科大开讲:AI时代机遇均等,新生当怀热忱逐梦前行09-14 蚂蚁开源2025外滩大会发布大模型全景图,AI开发现三大趋势:工具、路线与生态分化月 13 日,在 2025 Inclusion·外滩大会AI开源见解论坛上,蚂蚁开源联合Inclusion AI 发布了全新的《全球大模型开源开发生态全景与趋势告》。本次发布的大模型开源开发生态全景图共收录了…09-14
蚂蚁开源2025外滩大会发布大模型全景图,AI开发现三大趋势:工具、路线与生态分化月 13 日,在 2025 Inclusion·外滩大会AI开源见解论坛上,蚂蚁开源联合Inclusion AI 发布了全新的《全球大模型开源开发生态全景与趋势告》。本次发布的大模型开源开发生态全景图共收录了…09-14 对话京东方陈炎顺:AI驱动产业升级,未来三年500亿研发携手伙伴共拓新局“早在2024年初,京东方就将AI提高到了企业的整体发展战略”,陈炎顺对作者表示,“一方面我们成立了AI+创新与应用委员会,要求以营业收入的0.5%来用于AI的研发。 陈炎顺指出,从CES到SID等国际展会上…09-14
对话京东方陈炎顺:AI驱动产业升级,未来三年500亿研发携手伙伴共拓新局“早在2024年初,京东方就将AI提高到了企业的整体发展战略”,陈炎顺对作者表示,“一方面我们成立了AI+创新与应用委员会,要求以营业收入的0.5%来用于AI的研发。 陈炎顺指出,从CES到SID等国际展会上…09-14 OpenAI奥尔特曼坦言:ChatGPT问世后,模型细微调整牵动数亿人思维行为致其难眠9月14日消息,据《财富》报道,OpenAI CEO 萨姆·奥尔特曼在接受采访时表示,“自从 ChatGPT 推出以来,我就没睡过一个好觉。” 奥尔特曼描述了监管这项如今每天有数亿人使用的技术的压力,他担忧的…09-14
OpenAI奥尔特曼坦言:ChatGPT问世后,模型细微调整牵动数亿人思维行为致其难眠9月14日消息,据《财富》报道,OpenAI CEO 萨姆·奥尔特曼在接受采访时表示,“自从 ChatGPT 推出以来,我就没睡过一个好觉。” 奥尔特曼描述了监管这项如今每天有数亿人使用的技术的压力,他担忧的…09-14 上海创智学院:90后导师领航 博士CEO逐梦 机器人奇境挑战未来2023年,刘鹏飞完成美国博后工作回国加盟上海交通大学,去年以双聘的形式加盟创智学院,他深深感受时代的机遇正在眼前——“三个低概率事件”交汇:智能革命的发生、创智学院模式的独一无二,学院对师生资源的倾斜。就…09-14点击查看更多 +全站最新
上海创智学院:90后导师领航 博士CEO逐梦 机器人奇境挑战未来2023年,刘鹏飞完成美国博后工作回国加盟上海交通大学,去年以双聘的形式加盟创智学院,他深深感受时代的机遇正在眼前——“三个低概率事件”交汇:智能革命的发生、创智学院模式的独一无二,学院对师生资源的倾斜。就…09-14点击查看更多 +全站最新 鸿蒙智行MPV新车谍照现身 智界品牌或迎新成员 明年上半年有望上市
鸿蒙智行MPV新车谍照现身 智界品牌或迎新成员 明年上半年有望上市 岳麓大会十二年:从“闭门论道”到“链上生长”,湖南数字生态如何崛起?
岳麓大会十二年:从“闭门论道”到“链上生长”,湖南数字生态如何崛起? 抖音图文创作新思路:精选素材+用心运营,轻松开启自媒体变现路!
抖音图文创作新思路:精选素材+用心运营,轻松开启自媒体变现路! 方形CMOS加持!iPhone 17前置摄像头如何打破自拍构图限制?
方形CMOS加持!iPhone 17前置摄像头如何打破自拍构图限制? 杭州全球农创客大赛落幕:AI养猪、超滤净水,青年科技绘就农业新蓝图
杭州全球农创客大赛落幕:AI养猪、超滤净水,青年科技绘就农业新蓝图 亿级卖家吞吞揭秘:TikTok美区直播如何选渠道、控成本、定布局?热门内容
亿级卖家吞吞揭秘:TikTok美区直播如何选渠道、控成本、定布局?热门内容 岳麓大会十二年:从“闭门论道”到“链上生长”,湖南数字生态如何崛起?
岳麓大会十二年:从“闭门论道”到“链上生长”,湖南数字生态如何崛起? 新学期新气象!北京1400余所中小学全学段开设人工智能通识课
新学期新气象!北京1400余所中小学全学段开设人工智能通识课 宇树王兴兴福耀科大开讲:AI时代机遇均等,新生当怀热忱逐梦前行
宇树王兴兴福耀科大开讲:AI时代机遇均等,新生当怀热忱逐梦前行 蚂蚁开源2025外滩大会发布大模型全景图,AI开发现三大趋势:工具、路线与生态分化
蚂蚁开源2025外滩大会发布大模型全景图,AI开发现三大趋势:工具、路线与生态分化 对话京东方陈炎顺:AI驱动产业升级,未来三年500亿研发携手伙伴共拓新局
对话京东方陈炎顺:AI驱动产业升级,未来三年500亿研发携手伙伴共拓新局 OpenAI奥尔特曼坦言:ChatGPT问世后,模型细微调整牵动数亿人思维行为致其难眠
OpenAI奥尔特曼坦言:ChatGPT问世后,模型细微调整牵动数亿人思维行为致其难眠 
			本文链接:http://www.28at.com/showinfo-45-27565-0.html新研究:人类读指针钟准确率近九成,顶尖AI模型准确率仅一成多
声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。