近日,AI界传出了一则令人瞩目的消息。据AI云服务商Hyperbolic的联合创始人兼CTO Yuchen Jin在社交平台上的爆料,研究员Keller Jordan仅凭一篇博客文章就成功加入了OpenAI,并且可能正在利用文章中提及的神经网络隐藏层优化器Muon来训练GPT-5。
Jin在爆料中感慨道,许多研究人员,包括曾经的自己,都曾误以为在顶级学术会议上发表论文才是最终目标。然而,发表论文并不等同于产生实际影响力。Keller Jordan发布的Muon优化器仅以博客形式问世,却帮助他叩开了OpenAI的大门,并有可能在GPT-5的训练中大放异彩。

Jordan的这篇博客发表于2024年12月,题为《Muon:神经网络隐藏层的优化器》。文章详细介绍了Muon的设计理念及其在多个实验中的优异表现。从职场社交平台领英的信息可以确认,Jordan正是在博客发布后不久加入了OpenAI,这无疑进一步证实了他的研究成果得到了业界的认可。

Muon作为一种针对神经网络隐藏层二维参数的优化器,在设计和应用上都有其独到之处。它通过采用SGD-momentum生成的更新,并在应用于参数之前对每个更新应用Newton-Schulz迭代作为后处理步骤,从而实现了更新矩阵的近似正交化。这一创新设计使得Muon在多个实验中都取得了显著优于传统优化器AdamW的表现。
具体而言,Muon在CIFAR-10数据集上的训练速度记录从3.3秒提高到了2.6秒,准确率达到了94%;在FineWeb竞赛任务上的训练速度记录也提高了1.35倍。在扩展到更大规模的模型时,Muon仍然能够持续显示训练速度的提升。这些实证成果无疑为Muon在OpenAI中的应用提供了坚实的基础。


除了在设计上的创新,Jordan在博客中还对神经网络优化研究中的证据标准提出了犀利批评。他指出,当前的研究文献中充斥着大量声称能够击败AdamW的优化器,但这些优化器往往因为基线欠调而未能得到广泛采用。为了纠正这种情况,Jordan建议研究界应该要求新方法在竞争性训练任务中取得成功,以确保其有效性和可靠性。
随着Jordan加入OpenAI并可能参与GPT-5的训练工作,Muon这一全新优化器有望成为GPT-5中的重要技术。然而,关于Muon的未来发展仍有许多未知因素,包括其是否能够在更大规模的训练中扩展应用,以及在大型GPU集群中的正确分布等。或许在GPT-5的研究中,这些问题都将得到解答。
举报 0收藏 0打赏 0评论 0分享 0 更多>同类资讯
4G/5G物联网赋能,户外停车场如何实现智慧升级?4G/5G 网络的高速率特性,使得车牌识别数据、控制指令等信息能够快速传输,提高了系统的响应速度;低延迟特性则确保了车辆进出的及时性和流畅性。通过在每个停车位安装地磁传感器和车牌识别设备,并利用工业路由器和物…06-17
纳秒级精度!SYN3307型GNSS驯服晶振模块引领技术新变革西安同步电子科技有限公司匠心打造的 SYN3307 型 GNSS驯服晶振模块,凭借其集成化设计与智能驯服技术,为无人机、雷达、卫星通讯等关键领域提供了稳定可靠的时空基准解决方案。随着 5G、物联网、自动驾驶…06-17
构建高可用服务器架构:保障业务连续性的关键策略服务器高可用性架构的核心目标是确保系统在面对硬件故障、软件错误、网络问题甚至人为失误时,仍能持续运行并提供服务。 在设计高可用性架构时,还需要考虑监控和告警机制。通过采用冗余设计、分布式架构、监控告警机制以…06-17
石头科技2024年度权益分派实施,多图揭秘分配详情!06-17
富士X-E5沉浸式体验来袭,X-Pro系列也即将回归?【CNMO科技消息】根据Petapixel的一篇采访报道,富士胶片的产品开发负责人透露了公司对这两款产品的未来规划和设计理念。为了满足这一需求,X-E5不仅增加了新的胶片模拟拨盘,还在保持XE系列一贯简约优雅…06-17
小米高速吹风机PRO,短发星人新宠?体验后直呼:真香!自从剪了短发之后,就需要天天洗头,之前的吹风机太重,噪音大,而且吹干速度也慢,新入手的小米高速吹风机PRO,能快速吹干头发,不仅颜值在线还嘎嘎好用,岩石灰的的配色好美,吹风机不大,也很轻。用了小米的这款高速吹…06-17
混凝土臂架泵车底盘:未来智能化趋势与日常保养秘籍06-17
华为WATCH 5:以鸿蒙AI引领智能手表新风尚06-17罗永浩数字人直播首秀大获成功,AI讲解近10万字,老罗直呼效果惊人!06-17
华为Pura 80系列首销火爆,何刚亲自交付新机,影像美学再升级!06-17拼多多概念股16日大涨,主力资金净流入超4亿,元隆雅图领跑6月16日,拼多多概念上涨3.31%,今日主力资金流入4.11亿元,概念股22只上涨,3只下跌。 主力资金净流入居前的分别为元隆雅图(2.76亿元)、美登科技(4733.67万元)、每日互动(4331.93万…06-17
华为Pura80系列新机发布:影像跃迁,自研升级,6月14日起陆续开售!6月11日下午,华为Pura80系列及全场景新品发布会如期而至,备受瞩目的「华为Pura80系列」正式亮相,共带来了四款旗舰新机,从标准版到Pro、Pro+再到Ultra,不仅更新了旗舰手机的硬件堆料,也在影…06-17
赣锋锂业领衔,上海新设资源再生科技公司,注册资本高达1亿!06-17
广州湾区半导体产业集团增资近三成,总额跃升至33.36亿06-17
小英上位后,双方是否已切断所有公司关联?06-17点击查看更多 +全站最新
6-7月新机潮来袭,小米魅族等国产中高端机型谁更亮眼?
小米月末新品大爆炸:YU7 SUV携手AI眼镜,智能生态再升级!
智能眼镜卷土重来,能否借AI之力引领科技新风尚?
emoji表情跨平台大不同,苹果安卓用户如何避免沟通误会?
Win11意外“穿越”?开机声变回Windows Vista经典旋律
数码博主的日常神器:揭秘他们的EDC装备,感受科技魅力热门内容
构建高可用服务器架构:保障业务连续性的关键策略
石头科技2024年度权益分派实施,多图揭秘分配详情!
富士X-E5沉浸式体验来袭,X-Pro系列也即将回归?
小米高速吹风机PRO,短发星人新宠?体验后直呼:真香!
混凝土臂架泵车底盘:未来智能化趋势与日常保养秘籍
华为WATCH 5:以鸿蒙AI引领智能手表新风尚
本文链接:http://www.28at.com/showinfo-16-160385-0.html靠博客文章入职OpenAI,Keller Jordan的Muon优化器或助力GPT-5训练
声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。