苹果研究：AI大模型在高复杂度任务中推理能力遭质疑-28资讯网—

苹果研究：AI大模型在高复杂度任务中推理能力遭质疑

2025-06-09 09:39:01 AI 189观看

摘要苹果机器学习研究中心近日发布了一篇引人深思的研究论文，对当前人工智能（AI）模型的思维能力与推理能力提出了质疑。论文指出，现有的AI模型，尽管在某些任务上表现出色，但实际上主要依赖模式匹配与记忆，特别是在面对复杂任务时

苹果机器学习研究中心近日发布了一篇引人深思的研究论文，对当前人工智能（AI）模型的思维能力与推理能力提出了质疑。论文指出，现有的AI模型，尽管在某些任务上表现出色，但实际上主要依赖模式匹配与记忆，特别是在面对复杂任务时，这一局限性尤为明显。

为了深入探讨这一问题，苹果的研究人员对当前前沿的“大型推理模型”进行了全面评估，这些模型包括OpenAI的o3-mini、DeepSeek-R1、Anthropic的Claude 3.7 Sonnet Thinking，以及谷歌的Gemini Thinking等。这些模型被广泛应用于各种场景，尤其是在生成详细“思考链”方面展现出了独特的优势。

然而，研究却发现，当问题的复杂度超过某个临界点时，这些模型的推理能力会急剧下降，甚至完全崩溃，准确率降至零。更令人惊讶的是，在推理过程中，尽管算力充足，但模型用于“思考”的token数量却随着问题难度的增加而减少，这进一步揭示了现有推理方法的根本局限性。

论文《思考的幻象：通过问题复杂性的视角理解推理模型的优势与局限》由Parshin Shojaee等人撰写，深入剖析了当前AI模型在推理方面的不足。研究人员指出，目前对AI模型的评估主要集中在数学和编程基准测试上，这种评估方式虽然可以反映模型的最终答案准确性，但却忽略了数据污染问题，也无法揭示模型内部推理轨迹的结构和质量。

为了更深入地了解AI模型的推理过程，研究人员设计了一系列可控的解谜环境，这些环境允许精确操纵问题的复杂性，同时保持逻辑结构的一致性。通过这种方式，研究人员不仅可以分析模型的最终答案，还可以深入探究模型的内部推理轨迹，从而揭示模型是如何“思考”的。

研究团队发现，模型的表现可以清晰地分为三个阶段：在低复杂度任务中，传统大模型（如Claude-3.7无思维版本）表现更佳；在中等复杂度任务中，具备思维机制的大型推理模型（LRMs）更占优势；然而，在高复杂度任务中，两类模型均陷入完全失效状态。

特别研究还发现LRMs在执行精确计算方面存在明显局限性，它们无法使用显式算法进行推理，且在不同谜题之间的推理表现也呈现出不一致性。这一发现进一步强调了当前AI模型在推理能力方面的不足。

研究还指出，当前业界对LRMs的评估范式主要基于已建立的数学基准，这种评估方式可能无法全面反映模型的真实能力。因此，研究人员呼吁需要更加细致的实验设置来探索这些问题，以更深入地了解AI模型的推理能力和局限性。

论文的发布引起了业界的广泛关注。研究人员表示，这些发现不仅揭示了现有LRMs的优点和局限性，还引发了关于这些系统推理本质的问题。这些问题对于AI系统的设计和部署具有重要意义，将推动相关领域的研究不断向前发展。

举报 0收藏 0打赏 0评论 0

更多>同类资讯

AI助力，四小时邂逅六十余种“野朋友”，共筑生物多样性保护梦

多家生物多样性保护机构与腾讯联合，打磨出了“物种之眼”AI，以此为底层能力面向G/B端开放“野朋友生物多样性数据协作平台”，对野外红外相机、监测设备拍摄的图片进行批量处理，服务于种群调查、栖息地评估等科研和…

06-08

2025暑期档票房火爆开场，《碟中谍8》等大片引领观影热潮

06-08

2025高考遇AI：科技赋能教育，还是重塑人的价值？

06-08

徐京坤：挑战极限航海，以爱与信念铸就中国航海新篇章！

06-07

AI高考作文大比拼：谁是真才实学，谁在玩套路？

智东西第一时间对当前主流AI助手展开高考作文写作测试，涵盖字节跳动豆包、腾讯元宝、阿里云通义千问、阿里夸克、科大讯飞星火、昆仑万维天工、商汤商量、智谱清言、月之暗面Kimi、MiniMax海螺AI、Deep…

06-07

大模型高考作文比拼，腾讯垫底百度ChatGPT并列第一，幻觉问题成关键

值得注意的是，本次高考作文题目并没有以“人工智能”相关的考题，因此大模型之家随机抽选了北京卷的考题之一，对大模型的“写作能力”进行考察。作为一年一度的“整活”环节，大模型之家这次不仅用上了“判卷智能体”，…

06-07

面壁智能MiniCPM4：端侧模型极限提速，8B性能超12B竞品引关注

MiniCPM4-8B训练开销仅22%，加了长下文稀疏化版本，做到同等参数、性能更强，综合得分对标Qwen3-8B、超越Gemma3-12B，在下列同类端侧模型排行榜中分数排名第一。总体来看，MiniCP…

06-07

AI助力高考志愿填报，夸克百度讯飞谁更懂你的心？

06-07

数禾科技：自研反诈技术亮相网安博览会，守护用户数据安全获好评

06-07

苹果iPadOS 26大改版：新界面、手写笔升级，AI与应用全面进化！

06-07

喜临门荣获中国专利优秀奖，智能睡眠技术创新实力获国家级认可

06-07

小码王与黑龙江工程学院强强联手，打造信息学创新人才培育新高地

06-07

抖音重拳出击：高考季严查AI押题、虚假志愿规划等营销骗局

06-07

抖音高考护航：严查AI押题、作弊服务等违规行为

06-07

AI争霸赛，谷歌何以从领跑者变追赶者？

Bard初期表现不佳，与ChatGPT存在明显差距，未能赢得用户和市场的广泛认可；看似能打的Gemini系列模型，实际使用却引发不小争议，图像生成功能因出现种族偏见被迫下线；谷歌内部，搜索、Android、…

06-07

点击查看更多 +

全站最新

特斯拉阻止公开自动驾驶碰撞数据，背后有何隐情？

神二十乘组空间站生活揭秘：一月多来，他们究竟完成了哪些任务？

神舟二十号航天员满月“出差记”：忙科研、护健康、维设备

15万级混动家轿大比拼：领克07 EM-P与海豹07 DM-i谁更值得选？

华为固态电池新突破，电车续航3000公里，燃油车真要慌了吗？

2025粤港澳车展回顾：刘德华助阵奥迪，小米YU7成流量担当！

热门内容

荣耀“鲲鹏”照片事件真相大白，造谣者道歉遭刑拘
腾讯阿里AI to C战场“双吴”争霸，谁将问鼎AI搜索之巅？
英伟达全球总部或将落户中国台湾，黄仁勋下周宣布这一重大决定？
教育部新规：学生禁直接复制AI作业，强化独立思考与批判性思维
联发科天玑9400e发布：天玑9300+升级版，蓝牙升级至6.0
中国知网CNKI AI：重塑知识服务新生态，四大核心力引领未来
中国GPU市场竞争激烈，英伟达独占7成，华为昇腾紧追其后！
华为Mate 40系列（5G）已支持5G-A网络，性能再升级！
华为nova 14系列震撼登场！鸿蒙5直板机领衔，nova 14仅售2699元起
教育部新规：中小学分阶段用AI，严禁复制答案强化独立思考
华为nova14 Ultra震撼登场！鸿蒙5系统加持，售价4199元起
华为昇腾超节点技术突破：384卡高速互联，引领AI模型训练新纪元
DeepSeek新论文揭秘：梁文锋领衔探索AI训练推理成本效益之道
华为nova 15系列下半年将亮相，自研芯片加持产品力再升级？
荣耀400系列新品发布会：4K超清Live拼图，定格每个精彩瞬间？

本栏最新

苹果研究：AI大模型在高复杂度任务中推理能力遭质疑

AI助力，四小时邂逅六十余种“野朋友”，共筑生物多样性保护梦

2025暑期档票房火爆开场，《碟中谍8》等大片引领观影热潮

2025高考遇AI：科技赋能教育，还是重塑人的价值？

徐京坤：挑战极限航海，以爱与信念铸就中国航海新篇章！

AI高考作文大比拼：谁是真才实学，谁在玩套路？

本文链接：http://www.28at.com/showinfo-45-13558-0.html苹果研究：AI大模型在高复杂度任务中推理能力遭质疑

声明：本网页内容旨在传播知识，不代表本站观点，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

显示全文

全部频道

最新热点