新研究：人类读指针钟准确率近九成，顶尖AI模型准确率仅一成多-28资讯网—

新研究：人类读指针钟准确率近九成，顶尖AI模型准确率仅一成多

2025-09-15 11:51:32 AI 139观看

摘要一项名为“ClockBench”的全新测试揭示，人类在读取指针式时钟方面的准确率高达89.1%，而当前最先进的人工智能模型准确率仅为13.3%。这一差距凸显了AI在视觉推理能力上与人类的显著差异，尤其是在处理复杂视觉信息时，AI的表

一项名为“ClockBench”的全新测试揭示，人类在读取指针式时钟方面的准确率高达89.1%，而当前最先进的人工智能模型准确率仅为13.3%。这一差距凸显了AI在视觉推理能力上与人类的显著差异，尤其是在处理复杂视觉信息时，AI的表现远未达到预期水平。

该测试由研究者阿莱克·萨法尔设计，旨在通过定制化的指针式时钟数据集，评估AI在视觉推理任务中的表现。测试中，来自6家企业的11个大型语言模型与5名人类参与者展开对比。数据集包含180个独特的指针式时钟，涵盖36种钟面设计，融合了罗马数字与阿拉伯数字、不同朝向、时针标识、镜像布局及彩色背景等元素，确保测试的复杂性和多样性。

每个时钟需通过四类问题测试：读取时间、时间计算、按特定角度调整指针及时区转换。为保证公平性，数据集从零构建，避免与模型训练数据重叠。测试结果显示，AI模型在读取时间时的中位误差达1小时，而人类的中位误差仅为3分钟。性能最差的AI模型误差甚至接近3小时，几乎与随机猜测无异。

在参与测试的AI模型中，谷歌旗下的Gemini 2.5 Pro以13.3%的准确率位居榜首，Gemini 2.5 Flash和GPT-5分别以10.5%和8.4%的准确率紧随其后。然而，Grok 4模型的表现令人意外，其准确率仅0.7%，且将63.3%的时钟判定为“无效”，远高于实际无效时钟的比例（180个中仅37个）。这种过度谨慎的策略虽在技术上增加了正确答案数量，但并未真正提升模型能力。

测试还发现，钟面特征对AI判断影响显著。当钟面采用罗马数字时，AI准确率骤降至3.2%；采用圆形数字时，准确率也仅为4.5%。秒针、彩色背景及镜像布局均会干扰AI的判断。相比之下，仅含时针的时钟（准确率23.6%）和采用阿拉伯数字的标准时钟，能让AI取得相对更好的成绩。

一个意外发现是，AI模型在成功读取时间后，能正确完成时间计算、指针调整或时区转换任务。这表明，AI的挑战并非在于时间相关的数学运算，而在于从视觉信息中提取时间的初始步骤。萨法尔分析，原因可能包括：指针式时钟读取对视觉推理能力要求极高；罕见或特殊的钟面设计在训练数据中极少出现；以及将视觉信息转化为文字描述对当前AI模型而言难度较大。

ClockBench被定位为长期基准测试，其完整数据集目前保密，以避免污染未来AI的训练过程，但已有一个公开版本供测试使用。尽管AI在该测试中得分普遍较低，萨法尔认为，性能最佳的模型已展现出基础的视觉推理能力，优于随机猜测。然而，这些能力能否通过扩大现有方法规模提升，还是需要全新技术路径突破，仍是一个待解的问题。

此前，中国一项研究也曾发现多模态语言模型存在类似短板，但当时GPT-4o模型在包含“读时钟、读仪表”的任务中准确率达54.8%。此次ClockBench测试中，AI最高准确率仅为13.3%，既表明新基准测试难度显著提升，也反映出AI在时钟读取能力上并未取得明显进步。

更多>同类资讯OpenAI未来六年算力与研发投入或达3500亿美元，2030年盈利稳定性存疑09-14

海马emoji是否存在？ChatGPT等AI深陷“记忆迷局”反复纠错难自明09-14

蚂蚁开源联合Inclusion AI发布大模型生态全景图，呈现AI开源新特征与三大开发趋势09-14

OpenAI称GPT-5有博士级能力，谷歌DeepMind CEO：尚缺全面博士能力，AGI或需5到10年09-14

缺钱仍具洞察：陶哲轩直指AI在数学研究中隐性目标被忽视之困09-14谷歌DeepMind CEO：当前AI系统难达博士级，GPT-5综合能力被指差距大09-14OpenAI 2024-2030年拟投巨资：算力租赁与研发成本高企，盈利前景存疑09-14

岳麓大会十二年：从“闭门论道”到“链上生长”，湖南数字生态如何崛起？09-14谷歌DeepMind CEO：当前AI系统难达博士级，GPT-5能力被指夸大09-14

新学期新气象！北京1400余所中小学全学段开设人工智能通识课09-14

宇树王兴兴福耀科大开讲：AI时代机遇均等，新生当怀热忱逐梦前行09-14

蚂蚁开源2025外滩大会发布大模型全景图，AI开发现三大趋势：工具、路线与生态分化月 13 日，在 2025 Inclusion·外滩大会AI开源见解论坛上，蚂蚁开源联合Inclusion AI 发布了全新的《全球大模型开源开发生态全景与趋势告》。本次发布的大模型开源开发生态全景图共收录了…09-14

对话京东方陈炎顺：AI驱动产业升级，未来三年500亿研发携手伙伴共拓新局“早在2024年初，京东方就将AI提高到了企业的整体发展战略”，陈炎顺对作者表示，“一方面我们成立了AI+创新与应用委员会，要求以营业收入的0.5%来用于AI的研发。陈炎顺指出，从CES到SID等国际展会上…09-14

OpenAI奥尔特曼坦言：ChatGPT问世后，模型细微调整牵动数亿人思维行为致其难眠9月14日消息，据《财富》报道，OpenAI CEO 萨姆·奥尔特曼在接受采访时表示，“自从 ChatGPT 推出以来，我就没睡过一个好觉。” 奥尔特曼描述了监管这项如今每天有数亿人使用的技术的压力，他担忧的…09-14

上海创智学院：90后导师领航博士CEO逐梦机器人奇境挑战未来2023年，刘鹏飞完成美国博后工作回国加盟上海交通大学，去年以双聘的形式加盟创智学院，他深深感受时代的机遇正在眼前——“三个低概率事件”交汇：智能革命的发生、创智学院模式的独一无二，学院对师生资源的倾斜。就…09-14点击查看更多 +全站最新 鸿蒙智行MPV新车谍照现身智界品牌或迎新成员明年上半年有望上市