OpenAI o3模型实测分数引争议，透明度与测试标准成焦点-28资讯网——每日最新资讯28at.com

知多少

元宇宙

全部频道

OpenAI o3模型实测分数引争议，透明度与测试标准成焦点

2025-04-21 09:46:20 AI 208观看

摘要近期，关于OpenAI的o3人工智能模型在基准测试上的表现引发了广泛关注与讨论。争议的核心在于，OpenAI首次发布o3模型时公布的测试结果与外界第三方机构的测试结果存在显著差异。去年12月，OpenAI自豪地宣布，其o3模型在极具难

近期，关于OpenAI的o3人工智能模型在基准测试上的表现引发了广泛关注与讨论。争议的核心在于，OpenAI首次发布o3模型时公布的测试结果与外界第三方机构的测试结果存在显著差异。

去年12月，OpenAI自豪地宣布，其o3模型在极具难度的FrontierMath数学问题集上取得了突破性成绩，正确率超过四分之一，远超其他竞争对手。OpenAI首席研究官Mark Chen在直播中强调，这一成绩是在内部激进测试条件下，使用资源更为强大的o3模型版本所得出的。

然而，事情并未如此简单。负责FrontierMath的Epoch研究所随后公布的独立基准测试结果显示，公开发布的o3模型得分仅为约10%，远低于OpenAI宣称的分数。这一发现立即引发了外界对OpenAI透明度和测试实践的质疑。

值得注意的是，OpenAI在12月公布的测试结果中确实包含了一个与Epoch测试结果相符的较低分数。Epoch在报告中指出，测试设置的差异、评估使用的FrontierMath版本更新，以及可能的计算资源和框架不同，都可能是导致结果差异的原因。

ARC Prize基金会也在X平台上发布消息，进一步证实了Epoch的报告。ARC Prize指出，公开发布的o3模型是一个针对聊天和产品使用进行了调整的不同版本，且所有发布的o3计算层级都比预发布版本要小。这意味着，尽管o3模型在内部测试中取得了高分，但公开发布的版本在性能上有所妥协。

尽管如此，OpenAI并未因此止步。该公司后续推出的o3-mini-high和o4-mini模型在FrontierMath上的表现已经超越了最初的o3模型。同时，OpenAI还计划在未来几周内推出更强大的o3版本——o3-pro。

然而，这一系列事件再次凸显了人工智能基准测试结果的复杂性和不确定性。尤其是当这些结果来自有产品需要销售的公司时，外界对其真实性和可靠性的质疑声往往会更加响亮。随着人工智能行业的竞争加剧，各供应商纷纷急于推出新模型以吸引眼球和市场份额，基准测试“争议”正变得越来越普遍。

事实上，类似的争议并非个例。今年1月，Epoch因在OpenAI宣布o3之后才披露其从OpenAI获得的资金支持而受到批评。许多为FrontierMath做出贡献的学者直到公开时才知道OpenAI的参与。而最近，埃隆·马斯克的xAI也被指控为其最新的人工智能模型Grok 3发布了误导性的基准测试图表。就在本月，meta也承认其宣传的基准测试分数所基于的模型版本与提供给开发者的版本不一致。

举报 0收藏 0打赏 0评论 0

更多>同类资讯

余凯论智能驾驶：软硬结合是王道，品牌差异难靠此打造

04-21

人机共跑！北京天工Ultra机器人首夺人形机器人马拉松冠军

在具身智能大脑能力构建上，百度智能云为北京人形机器人创新中心提供了百舸AI异构计算平台以及高性能、稳定可靠的AI算力，实现算力高效调度并显著提升大模型的训推性能，助力天工机器人将集群有效训练时长提升至98.…

04-21

ChatGPT喊你名字了？用户反应不一，个性化尝试遭遇“恐怖谷”

近期，部分 ChatGPT 用户注意到一个现象：这款人工智能聊天机器人在与用户互动和进行逻辑推理时，会直接称呼用户的名字。一些用户在 X 平台上表示，即便他们已经禁用了记忆功能及相关的个性化设置，ChatGP…

04-20

数势科技实力彰显！入榜IDC中国AI Agent应用市场报告成标杆

04-20

数势科技AIGC峰会夺双奖，发布白皮书领跑决策智能新赛道

04-20

魔珐科技与洲明科技携手，共创AI数字人沉浸式交互新纪元

04-20

百度三年开放2.1万实习岗，全力培育AI领域未来领袖

04-20

AI礼貌回复背后：数千万美元开销，你的“谢谢”值多少？

04-20

vivo X200 Ultra震撼发布：影像巅峰，手机界的摄影大师？

04-20

微软CTO凯文·斯科特：未来AI将涌现大量专业Agent

在最新的访谈中，微软CTO Kevin Scott发表关于AI的系列观点。他认为：我不认同那种 “一个Agent搞定一切” 的理论，会出现大量Agent。他们需要深入了解所在领域的特点，帮助建立反馈闭环…

04-20

百度三年内将提供2.1万实习岗位，力推校园人才转正计划

04-20

vivo X200 Ultra：影像巅峰，手机界的摄影大师来袭！

04-20

优刻得2025Q1财报：营收增至3.76亿，净亏损收窄至4473万

04-19

算力赋能影视创新，博大数据高辉共话电影工业未来

04-19

德施曼新品发布会预告：AI赋能，智能锁技术革命再升级？

04-19

点击查看更多 +

全站最新

Xbox云游戏火爆：月游戏时长数千万小时，斯宾塞称增长迅猛

Xbox云游戏火爆：月游戏时长数千万小时，斯宾塞称增长迅猛

《风暴崛起》意外提前发售，RTS 游戏品类能否借此东风重回巅峰？

《风暴崛起》意外提前发售，RTS 游戏品类能否借此东风重回巅峰？

哈弗枭龙MAX：全民四驱新时代，家庭SUV的理性之选？

哈弗枭龙MAX：全民四驱新时代，家庭SUV的理性之选？

微信朋友圈动图功能来了？小米用户即将体验灰度测试

微信朋友圈动图功能来了？小米用户即将体验灰度测试

特斯拉高管陶琳呼吁：停售影响行车安全的第三方配件，珍爱生命！

特斯拉高管陶琳呼吁：停售影响行车安全的第三方配件，珍爱生命！

ChatGPT礼貌回应成本惊人，山姆奥特曼透露耗资达百万美元级

ChatGPT礼貌回应成本惊人，山姆奥特曼透露耗资达百万美元级

热门内容

某大厂大模型高管涉婚变，公司账号停用引热议
立陶宛高校：学生不当使用AI，学术不端遭开除
诺奖得主彭罗斯：AI无真正意识，不应等同人类智能
ChatGPT喊你名字了？用户反应不一，个性化尝试遭遇“恐怖谷”
比尔·盖茨展望：AI将深度改造行业，人类生来不为工作？
华为4月新品大爆发：智能眼镜钛空版、门锁2系列及星闪路由X1来袭
魅族愚人节“玩笑”？官宣跨世代AI硅基人战神Note 16号仅售1999元
豆包大模型负责人飞书停用，内部风波起？真相待解
AI预测彩票中奖？专家揭秘：中奖号码随机，预测纯属骗局
快手2024成绩单：年营收破千亿，AI驱动内容与商业生态再升级
国产芯片设备新突破：新凯来发布31款新品，半导体产业迎黄金年代？
华为三进制芯片专利公布：信息密度与计算效率能否迎来革命？
OPPO小布助手网页版来袭，满血版DeepSeek加持体验升级！
TIOBE 4月编程语言榜：Python稳居榜首，Kotlin、Ruby、Swift地位受挑战
谷歌Firebase Studio上线：AI云端IDE，轻松秒建多样应用

本栏最新

OpenAI o3模型实测分数引争议，透明度与测试标准成焦点

OpenAI o3模型实测分数引争议，透明度与测试标准成焦点

余凯论智能驾驶：软硬结合是王道，品牌差异难靠此打造

余凯论智能驾驶：软硬结合是王道，品牌差异难靠此打造

人机共跑！北京天工Ultra机器人首夺人形机器人马拉松冠军

人机共跑！北京天工Ultra机器人首夺人形机器人马拉松冠军

数势科技实力彰显！入榜IDC中国AI Agent应用市场报告成标杆

数势科技实力彰显！入榜IDC中国AI Agent应用市场报告成标杆

数势科技AIGC峰会夺双奖，发布白皮书领跑决策智能新赛道

数势科技AIGC峰会夺双奖，发布白皮书领跑决策智能新赛道

魔珐科技与洲明科技携手，共创AI数字人沉浸式交互新纪元

魔珐科技与洲明科技携手，共创AI数字人沉浸式交互新纪元

本文链接：http://www.28at.com/showinfo-45-12432-0.htmlOpenAI o3模型实测分数引争议，透明度与测试标准成焦点

声明：本网页内容旨在传播知识，不代表本站观点，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

显示全文

最新热点

Copyright © 2019-2023 天津谷骐科技有限公司版权所有
津ICP备18001702号