OpenAI o3模型实测分数引争议,透明度与测试标准成焦点
2025-04-21 09:46:20 AI 12观看
摘要近期,关于OpenAI的o3人工智能模型在基准测试上的表现引发了广泛关注与讨论。争议的核心在于,OpenAI首次发布o3模型时公布的测试结果与外界第三方机构的测试结果存在显著差异。去年12月,OpenAI自豪地宣布,其o3模型在极具难

近期,关于OpenAI的o3人工智能模型在基准测试上的表现引发了广泛关注与讨论。争议的核心在于,OpenAI首次发布o3模型时公布的测试结果与外界第三方机构的测试结果存在显著差异。Gur28资讯网——每日最新资讯28at.com

去年12月,OpenAI自豪地宣布,其o3模型在极具难度的FrontierMath数学问题集上取得了突破性成绩,正确率超过四分之一,远超其他竞争对手。OpenAI首席研究官Mark Chen在直播中强调,这一成绩是在内部激进测试条件下,使用资源更为强大的o3模型版本所得出的。Gur28资讯网——每日最新资讯28at.com

Gur28资讯网——每日最新资讯28at.com

然而,事情并未如此简单。负责FrontierMath的Epoch研究所随后公布的独立基准测试结果显示,公开发布的o3模型得分仅为约10%,远低于OpenAI宣称的分数。这一发现立即引发了外界对OpenAI透明度和测试实践的质疑。Gur28资讯网——每日最新资讯28at.com

值得注意的是,OpenAI在12月公布的测试结果中确实包含了一个与Epoch测试结果相符的较低分数。Epoch在报告中指出,测试设置的差异、评估使用的FrontierMath版本更新,以及可能的计算资源和框架不同,都可能是导致结果差异的原因。Gur28资讯网——每日最新资讯28at.com

Gur28资讯网——每日最新资讯28at.com

ARC Prize基金会也在X平台上发布消息,进一步证实了Epoch的报告。ARC Prize指出,公开发布的o3模型是一个针对聊天和产品使用进行了调整的不同版本,且所有发布的o3计算层级都比预发布版本要小。这意味着,尽管o3模型在内部测试中取得了高分,但公开发布的版本在性能上有所妥协。Gur28资讯网——每日最新资讯28at.com

尽管如此,OpenAI并未因此止步。该公司后续推出的o3-mini-high和o4-mini模型在FrontierMath上的表现已经超越了最初的o3模型。同时,OpenAI还计划在未来几周内推出更强大的o3版本——o3-pro。Gur28资讯网——每日最新资讯28at.com

然而,这一系列事件再次凸显了人工智能基准测试结果的复杂性和不确定性。尤其是当这些结果来自有产品需要销售的公司时,外界对其真实性和可靠性的质疑声往往会更加响亮。随着人工智能行业的竞争加剧,各供应商纷纷急于推出新模型以吸引眼球和市场份额,基准测试“争议”正变得越来越普遍。Gur28资讯网——每日最新资讯28at.com

事实上,类似的争议并非个例。今年1月,Epoch因在OpenAI宣布o3之后才披露其从OpenAI获得的资金支持而受到批评。许多为FrontierMath做出贡献的学者直到公开时才知道OpenAI的参与。而最近,埃隆·马斯克的xAI也被指控为其最新的人工智能模型Grok 3发布了误导性的基准测试图表。就在本月,meta也承认其宣传的基准测试分数所基于的模型版本与提供给开发者的版本不一致。Gur28资讯网——每日最新资讯28at.com

举报 0收藏 0打赏 0评论 0
 
 
更多>同类资讯
点击查看更多 +
全站最新
Xbox云游戏火爆:月游戏时长数千万小时,斯宾塞称增长迅猛
Xbox云游戏火爆:月游戏时长数千万小时,斯宾塞称增长迅猛
《风暴崛起》意外提前发售,RTS 游戏品类能否借此东风重回巅峰?
《风暴崛起》意外提前发售,RTS 游戏品类能否借此东风重回巅峰?
哈弗枭龙MAX:全民四驱新时代,家庭SUV的理性之选?
哈弗枭龙MAX:全民四驱新时代,家庭SUV的理性之选?
微信朋友圈动图功能来了?小米用户即将体验灰度测试
微信朋友圈动图功能来了?小米用户即将体验灰度测试
特斯拉高管陶琳呼吁:停售影响行车安全的第三方配件,珍爱生命!
特斯拉高管陶琳呼吁:停售影响行车安全的第三方配件,珍爱生命!
ChatGPT礼貌回应成本惊人,山姆奥特曼透露耗资达百万美元级
ChatGPT礼貌回应成本惊人,山姆奥特曼透露耗资达百万美元级
热门内容
  • 某大厂大模型高管涉婚变,公司账号停用引热议
  • 立陶宛高校:学生不当使用AI,学术不端遭开除
  • 诺奖得主彭罗斯:AI无真正意识,不应等同人类智能
  • ChatGPT喊你名字了?用户反应不一,个性化尝试遭遇“恐怖谷”
  • 比尔·盖茨展望:AI将深度改造行业,人类生来不为工作?
  • 华为4月新品大爆发:智能眼镜钛空版、门锁2系列及星闪路由X1来袭
  • 魅族愚人节“玩笑”?官宣跨世代AI硅基人战神Note 16号仅售1999元
  • 豆包大模型负责人飞书停用,内部风波起?真相待解
  • AI预测彩票中奖?专家揭秘:中奖号码随机,预测纯属骗局
  • 快手2024成绩单:年营收破千亿,AI驱动内容与商业生态再升级
  • 国产芯片设备新突破:新凯来发布31款新品,半导体产业迎黄金年代?
  • 华为三进制芯片专利公布:信息密度与计算效率能否迎来革命?
  • OPPO小布助手网页版来袭,满血版DeepSeek加持体验升级!
  • TIOBE 4月编程语言榜:Python稳居榜首,Kotlin、Ruby、Swift地位受挑战
  • 谷歌Firebase Studio上线:AI云端IDE,轻松秒建多样应用
本栏最新
OpenAI o3模型实测分数引争议,透明度与测试标准成焦点
OpenAI o3模型实测分数引争议,透明度与测试标准成焦点
余凯论智能驾驶:软硬结合是王道,品牌差异难靠此打造
余凯论智能驾驶:软硬结合是王道,品牌差异难靠此打造
人机共跑!北京天工Ultra机器人首夺人形机器人马拉松冠军
人机共跑!北京天工Ultra机器人首夺人形机器人马拉松冠军
数势科技实力彰显!入榜IDC中国AI Agent应用市场报告成标杆
数势科技实力彰显!入榜IDC中国AI Agent应用市场报告成标杆
数势科技AIGC峰会夺双奖,发布白皮书领跑决策智能新赛道
数势科技AIGC峰会夺双奖,发布白皮书领跑决策智能新赛道
魔珐科技与洲明科技携手,共创AI数字人沉浸式交互新纪元
魔珐科技与洲明科技携手,共创AI数字人沉浸式交互新纪元

本文链接:http://www.28at.com/showinfo-45-12432-0.htmlOpenAI o3模型实测分数引争议,透明度与测试标准成焦点

声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

显示全文

上一篇:AI医疗诊断能力初显:平均准确率媲美非专家医生

下一篇:余凯论智能驾驶:软硬结合是王道,品牌差异难靠此打造

最新热点