苹果AI研究引争议:LRM推理极限还是评估方法有误?
2025-06-17 09:31:45 AI 4观看
摘要近期,科技界围绕苹果公司一篇关于人工智能的论文展开了激烈讨论。这篇题为《思维的错觉》的论文,由苹果公司于6月6日发布,迅速引起了专家们的关注与争议。论文中,苹果公司提出一个核心观点:即便是目前最顶尖的大型推理模型

近期,科技界围绕苹果公司一篇关于人工智能的论文展开了激烈讨论。这篇题为《思维的错觉》的论文,由苹果公司于6月6日发布,迅速引起了专家们的关注与争议。fus28资讯网——每日最新资讯28at.com

论文中,苹果公司提出一个核心观点:即便是目前最顶尖的大型推理模型(LRMs),在面对复杂任务时也会遭遇崩溃。然而,这一结论随即遭到了Open Philanthropy研究员Alex Lawsen的有力反驳。Lawsen认为,苹果的结论更多地反映了实验设计的瑕疵,而非模型推理能力的固有缺陷。fus28资讯网——每日最新资讯28at.com

争议的核心聚焦于苹果论文中的一个具体案例:即便是最先进的大型推理模型,在处理如汉诺塔问题这样的复杂递归算法任务时,也会彻底失败。汉诺塔问题是一个经典问题,要求将一系列大小不同的圆盘从一个柱子移动到另一个柱子,且需遵循特定规则。fus28资讯网——每日最新资讯28at.com

fus28资讯网——每日最新资讯28at.com

针对这一观点,Alex Lawsen撰写了一篇题为《思维错觉的错觉》的反驳文章。他指出,苹果的研究混淆了输出限制和评估设置的问题,从而得出了误导性的结论。Lawsen详细列举了三大问题来挑战苹果的结论。fus28资讯网——每日最新资讯28at.com

首先,Lawsen强调苹果忽略了模型的Token预算限制。在处理超过8个圆盘的汉诺塔问题时,一些模型如Anthropic的Claude Opus,已接近其输出极限,甚至因节省Token而停止输出。其次,苹果的过河测试中包含了一些无解谜题,模型因拒绝解答而被判定为失败,这显然是不公平的。最后,苹果的自动化评估脚本过于僵化,仅将完整步骤列表视为成功标准,未能区分推理失败与输出截断,导致部分策略性输出被误判。fus28资讯网——每日最新资讯28at.com

为了证明自己的观点,Lawsen重新设计了汉诺塔测试,要求模型生成递归Lua函数来打印解法,而非逐一列出步骤。结果令人震惊:Claude、Gemini和OpenAI的o3模型均能正确生成15个圆盘问题的算法解法,远超苹果报告中“零成功”的复杂性界限。fus28资讯网——每日最新资讯28at.com

fus28资讯网——每日最新资讯28at.com

Lawsen还指出,在去除人为输出限制后,LRMs展现出了处理高复杂任务的推理能力,至少在算法生成层面是如此。这表明,问题可能并不在于模型本身,而在于评估方式。这一发现无疑为人工智能领域带来了新的思考和启示。fus28资讯网——每日最新资讯28at.com

为了更直观地展示其观点,Lawsen还提供了其他测试结果的对比图,进一步证明了其论点的合理性。fus28资讯网——每日最新资讯28at.com

fus28资讯网——每日最新资讯28at.com

此次争议不仅揭示了人工智能研究中的复杂性和挑战,也再次强调了科学评估方法的重要性。随着人工智能技术的不断发展,如何更准确地评估模型的推理能力,将成为未来研究的重要方向。fus28资讯网——每日最新资讯28at.com

举报 0收藏 0打赏 0评论 0  更多>同类资讯中兴通讯2025自智网络白皮书:AI引领高阶自智,开启数字经济新篇章在产业数字化浪潮中,运营商加速构建云网算智一体化、高度自动化与智能化的网络体系,自智网络以自动化和智能化为核心特征,成为未来通信网络的内生能力。 中兴通讯倡议加速自智网络产业联盟发展,加强核心技术创新,加速自…06-17华为WATCH 5:鸿蒙AI与玄玑感知,开启智能穿戴新篇章?根据官方提供的资料来看,玄玑感知系统针对循环、呼吸、神经、内分泌、生殖、运动六大系统,提出了超过 60项不同的体征监测指标。未来智能穿戴设备也不再是简单地记录用户的健康数据,在 AI 的加持下,它能直接为…06-175G+AI,中国电信智慧农业助力乡村振兴新篇章而在江苏南通,中国电信通州分公司志愿者走进5G农业直播间,将直播间变身“云端集市”,将大米、乳腐、麻饼等地方特色产品成功进驻全国性商超,并上线京东、拼多多等电商平台,形成“基地直采—品质溯源—多渠道分销”的…06-17AMD携手AI初创势力,能否撼动英伟达霸主地位?随着越来越多的 AI 企业寻求英伟达芯片的替代方案,AMD 开始扩大布局,计划打造竞争力更强的硬件,并收购了服务器制造商 ZT Systems。AMD 执行副总裁福雷斯特・诺罗德表示,OpenAI 对即将发…06-17英伟达撤离中国后,黄仁勋担忧:华为或将全球通吃?他反对美国对中国进行芯片管制,不仅仅是因为这会影响到英伟达每年几十亿美元的利润收入,更是因为如果美国技术不进入中国市场,中国最终会开发出替代方案,日后会挑战美国在全球人工智能领域的主导地位。只不过反对黄仁勋的…06-172025年量子科技领域,这10家公司或将引领未来变革!本文基于技术实力、商业化进展、市场布局及政策支持等维度,梳理出2025年最具潜力的10家量子科技企业,为大家提供参考。技术突破:量子计算处于商业化早期,技术突破(如纠错算法、芯片性能)是核心投资逻辑,优先选…06-17Warp启用机器人技术,仓储网络自动化进程加速"我们不是简单地说,嘿,我们只是一家机器人公司、AI公司,为这个潜在概念花钱,而是说,不,我们实际上是一家物流公司,一直在真正影响和服务我们的客户,"Sokolovsky说。"在过去几年中,我们已经开发出了…06-17苹果AI新蓝图:Siri2.0领衔,Knowledge与Copilot能否成新亮点?不过,相较于Siri2.0和Knowledge,Copilot目前给到的信息还非常少,所以更具体的功能和体验还有待后续的进一步曝光。在Apple Intelligence上线后,用户也发现这个功能的体验远…06-172025年AIGC企业多模态技术领先者揭晓,谁在主导未来创意革命?美图设计室通过AI多模态技术实现影像创作与视频生成,2025年收入达亿元,入选量子位「值得关注的AIGC产品榜」。 融质科技AutoGLM入选「值得关注AIGC产品」,聚焦多模态交互与工业场景应用,垂直领域…06-17AI编程新时代:Codex引领开发者从写代码到审代码转变【新智元导读】红杉专访OpenAI Codex团队揭示AI编程的未来:从工具协作迈向「异步自主Agent」时代。 未来将不再区分「写代码的Agent」与「助手Agent」,ChatGPT将统一一切,具备终端…06-17智能眼镜卷土重来,能否借AI之力引领科技新风尚?这一消息引发了广泛关注,也让人们对智能眼镜的未来充满期待。得益于人工智能技术的进步,新一代智能眼镜在功能上有了质的飞跃,能够同时处理图像、视频和语音,回答复杂问题,甚至进行对话式交流。其次,如何说服消费者购买…06-17庆阳智能算力中心新突破:中国电信1#数据中心主体成功封顶!近日,伴随着最后一方混凝土的浇筑,中国电信甘肃庆阳智能算力中心一期项目1#数据中心主体顺利封顶。 根据项目规划蓝图,本次主体封顶后,项目将进入室内装修装饰和机电安装阶段,这一阶段将聚焦于打造适宜设备运行的内部…06-17一篇博客敲开OpenAI大门,Muon优化器或成GPT-5训练关键?智东西6月16日消息,今天,AI云服务商Hyperbolic的联合创始人兼CTO Yuchen Jin在社交平台X上曝料:研究员Keller Jordan仅凭一篇博客文章就加入了OpenAI,并可能正用博客…06-17智启医疗未来,共筑湖口卫健网络安全新防线江西‬民生‬新闻‬讯‬为进一步提升全县卫健系统网络安全防护水平,推动人工智能新技术在卫生健康行业的规范应用,6月13日下午,湖口县卫健系统网络安全培训会在湖口县中医医院举行。 此次培训会的成功举办,为湖口县…06-17黄仁勋论AI与就业:程序员或淘汰,但就业恐慌大可不必06-17点击查看更多 +全站最新中国制冷技术引领全球,ISO制冷压缩机标准实现零突破中国制冷技术引领全球,ISO制冷压缩机标准实现零突破华为发布天才少年挑战,全球招募青年才俊共探科技前沿华为发布天才少年挑战,全球招募青年才俊共探科技前沿云服务商视角下的主机与云服务器:如何做出明智选择?云服务商视角下的主机与云服务器:如何做出明智选择?路由器DNS设置攻略:如何提速又保安全?路由器DNS设置攻略:如何提速又保安全?魅族M582Q三证齐全,或成小屏旗舰新选择,5500mAh续航引期待魅族M582Q三证齐全,或成小屏旗舰新选择,5500mAh续航引期待小米SU7 Ultra量产车纽北狂飙,量产电动车圈速新纪录诞生!小米SU7 Ultra量产车纽北狂飙,量产电动车圈速新纪录诞生!热门内容
  • 荣耀“鲲鹏”照片事件真相大白,造谣者道歉遭刑拘
  • 中国知网CNKI AI:重塑知识服务新生态,四大核心力引领未来
  • 华为Mate 40系列(5G)已支持5G-A网络,性能再升级!
  • 华为nova 14系列震撼登场!鸿蒙5直板机领衔,nova 14仅售2699元起
  • 苹果AI「Apple Intelligence」国行版,终于要来了吗?
  • 字节跳动火山引擎发布豆包1.6与Seedance1.0,AI技术再升级成本大降
  • 华为nova14 Ultra震撼登场!鸿蒙5系统加持,售价4199元起
  • 阿里领投硅基流动,清华系AI创企再获数亿融资,DeepSeek流量爆棚后新动作?
  • 华为nova 15系列下半年将亮相,自研芯片加持产品力再升级?
  • 华为昇腾超节点技术突破:384卡高速互联,引领AI模型训练新纪元
  • 荣耀400系列新品发布会:4K超清Live拼图,定格每个精彩瞬间?
  • 荣耀400系列:AI重构手机影像,开启DeepSeek式拍照新纪元
  • 百度PaddleOCR3.0重磅发布:OCR技术再突破,识别精度飙升13%
  • 夸克“深度研究”来袭,AI自动生成报告,科研市场汇报新助手!
  • 斯坦福评测:DeepSeek R1医疗AI大放异彩,成临床场景新冠军
本栏最新华为WATCH 5:鸿蒙AI与玄玑感知,开启智能穿戴新篇章?华为WATCH 5:鸿蒙AI与玄玑感知,开启智能穿戴新篇章?5G+AI,中国电信智慧农业助力乡村振兴新篇章5G+AI,中国电信智慧农业助力乡村振兴新篇章AMD携手AI初创势力,能否撼动英伟达霸主地位?AMD携手AI初创势力,能否撼动英伟达霸主地位?英伟达撤离中国后,黄仁勋担忧:华为或将全球通吃?英伟达撤离中国后,黄仁勋担忧:华为或将全球通吃?2025年量子科技领域,这10家公司或将引领未来变革!2025年量子科技领域,这10家公司或将引领未来变革!Warp启用机器人技术,仓储网络自动化进程加速Warp启用机器人技术,仓储网络自动化进程加速

本文链接:http://www.28at.com/showinfo-45-13787-0.html苹果AI研究引争议:LRM推理极限还是评估方法有误?

声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

显示全文

上一篇:极氪里程碑:第50万台车下线,累计研发投入超235亿,前五月销量稳步增

下一篇:中兴通讯2025自智网络白皮书:AI引领高阶自智,开启数字经济新篇章

最新热点