牛津大学揭秘大型语言模型“深度诅咒”,层归一化缩放技术成破解关键
2025-08-23 09:31:15 AI 12观看
摘要在人工智能领域,一项由牛津大学刘世伟教授领衔的国际合作研究近日引起了广泛关注。该研究联合了西湖大学、埃默里大学、大连理工大学及萨里大学等多家顶尖学府,其突破性成果已于2025年7月发表于人工智能领域的权威期刊

在人工智能领域,一项由牛津大学刘世伟教授领衔的国际合作研究近日引起了广泛关注。该研究联合了西湖大学、埃默里大学、大连理工大学及萨里大学等多家顶尖学府,其突破性成果已于2025年7月发表于人工智能领域的权威期刊上。论文题为《大型语言模型中的深度困境》,感兴趣的读者可访问arXiv:2502.05795v2获取全文。kB028资讯网——每日最新资讯28at.com

该研究深入探讨了当前最先进的大型语言模型(例如ChatGPT、Claude等)在训练过程中的一个奇特现象:模型层次越深,后续层级的重要性反而越小。为了形象地说明这一问题,研究团队将其比喻为一座智慧大楼,其中每一层本应各司其职,共同为最终智能输出贡献力量。然而,他们惊人地发现,大楼的上半部分“工匠”几乎在消极怠工,即便移除这些层级,模型的整体表现也几乎不受影响。kB028资讯网——每日最新资讯28at.com

为了验证这一现象的普遍性,研究团队选取了当前流行的多个大型语言模型家族作为测试对象,包括Llama、Mistral、DeepSeek和Qwen系列。他们巧妙地设计了一系列实验,通过逐一移除模型的不同层级,观察并记录模型性能的变化。实验结果令人震惊:移除深层的多个层级后,模型的表现几乎未受影响,甚至在某些情况下略有提升;相反,移除浅层的任何一层都会导致模型性能显著下降。kB028资讯网——每日最新资讯28at.com

研究团队将这一奇特现象命名为“深度困境”。这一名称形象地揭示了当前大型语言模型训练中的一个根本矛盾:尽管我们投入了大量计算资源来训练更深的模型,期望获得更强的能力,但实际上,越深的层级对模型的贡献越小,仿佛被某种无形的困境所束缚。kB028资讯网——每日最新资讯28at.com

为了深入理解这一现象,研究团队进一步分析了层与层之间表示的相似性。他们利用角度距离这一数学工具来测量不同层级的输出相似性。结果表明,在深层网络中,相邻层级的输出几乎完全相同,这意味着这些层级只是在重复前面层级的工作,没有产生任何新的有用信息。kB028资讯网——每日最新资讯28at.com

研究团队还对比了两种不同的网络架构设计:现代大型语言模型普遍采用的“前置层归一化”(Pre-LN)与较早模型使用的“后置层归一化”(Post-LN)。通过对比实验,他们发现采用Pre-LN的模型更容易出现深度困境现象,而采用Post-LN的模型则表现出相反的趋势:深层比浅层更重要。这一发现为理解深度困境的根源提供了重要线索。kB028资讯网——每日最新资讯28at.com

为了揭示深度困境的理论根源,研究团队深入探讨了Pre-LN架构的工作原理。他们发现,在Pre-LN架构中,随着网络层数的增加,输出的方差会呈指数级增长。这种增长导致深层网络的梯度趋近于单位矩阵,使得这些层级几乎变成了“透明层”,没有进行任何有意义的转换。为了直观理解这一概念,研究团队用烹饪过程进行了类比:如果后续步骤只是简单的“保温”操作,那么无论进行多少步骤,最终的味道都不会有太大变化。kB028资讯网——每日最新资讯28at.com

面对这一棘手问题,研究团队提出了一个简洁而有效的解决方案:层归一化缩放(LNS)。这一方法的核心思想是通过给每一层的输出乘以一个与层深度相关的缩放因子来控制方差的增长。缩放因子等于当前层深度的平方根的倒数,即1/√l,其中l为层的索引。这种设计确保了每一层都能发挥其应有的作用,避免了深层网络的“偷懒”现象。kB028资讯网——每日最新资讯28at.com

为了验证LNS的有效性,研究团队进行了大规模的实验验证。实验涵盖了从小型模型到大型模型的各种规模,结果显示LNS在所有测试规模上都显著优于传统的归一化方法。特别是在工业级别的训练规模下,LNS仍然表现出显著的性能提升。kB028资讯网——每日最新资讯28at.com

研究团队还进行了下游任务的微调实验。他们使用Commonsense170K数据集在八个不同的推理任务上测试了经过LNS预训练的模型。结果显示,使用LNS预训练的模型在微调后的表现也明显优于传统方法。这表明LNS不仅改善了预训练效果,还增强了模型的通用学习能力。kB028资讯网——每日最新资讯28at.com

为了深入理解LNS的工作机制,研究团队还进行了详细的分析实验。他们验证了LNS确实能够有效控制输出方差,并分析了LNS对层间表示多样性的影响。实验结果表明,LNS成功地让每一层都发挥了应有的作用,提高了模型的整体性能。kB028资讯网——每日最新资讯28at.com

LNS的实现既简单又巧妙。它不需要引入额外的可学习参数或调整任何超参数,只需在每个层归一化操作的输出后乘以相应的缩放因子即可。这种设计既保持了Pre-LN的训练稳定性优势,又解决了深层网络效果不佳的问题。kB028资讯网——每日最新资讯28at.com

值得注意的是,研究团队还发现LNS与某些初始化策略可能存在冲突。他们建议在使用LNS时移除缩放初始化以获得最佳性能提升。研究团队还将LNS应用到视觉Transformer中进行了初步探索,发现LNS的具体实现可能需要根据不同的模型架构和任务进行调整。kB028资讯网——每日最新资讯28at.com

这项研究的实际应用价值巨大。当前训练大型语言模型需要消耗大量计算资源和能源,而深度困境意味着其中相当一部分投资实际上是浪费的。LNS的引入能够提高训练效率和最终性能,降低计算成本。kB028资讯网——每日最新资讯28at.com

对于工业界来说,这意味着在相同的计算预算下可以获得更好的模型性能,或者在保持性能不变的情况下显著降低计算成本。考虑到大型语言模型的训练成本高昂,这种效率提升的经济价值不言而喻。kB028资讯网——每日最新资讯28at.com

对于研究界来说,这项工作开启了重新审视现有架构设计的新视角。它表明,即使是被广泛采用的设计选择也可能存在根本性缺陷,需要更深入的理论分析来发现和解决。研究团队的工作为未来模型架构的设计提供了重要指导,强调了在追求更深、更大的模型时,必须仔细考虑深度对模型行为的影响。kB028资讯网——每日最新资讯28at.com

举报 0收藏 0打赏 0评论 0    更多>同类资讯字节跳动Seed团队开源推理大模型,Seed-OSS系列斩获7项SOTA成绩智东西8月21日报道,今天,字节跳动Seed团队开源了Seed-OSS系列模型,这些模型专为长上下文、推理、Agent和通用场景设计,将上下文窗口扩展至512k,是业界常见上下文窗口(128k)的4倍,GP…08-22vivo三十周年:发布轻量MR头显,影像生态战略全面革新正值企业三十周年之际,vivo不仅重磅发布了混合现实头显探索版,还宣布了影像技术战略及影像文化生态的全新布局,并揭晓了2025 vivo影像加手机摄影大赛结果。作为国内首家同时布局手机与MR的科技企业,viv…08-22vivo胡柏山:MR技术引领家庭机器人时代,共筑智能生活新愿景胡柏山在阐述vivo科技战略蓝图时提到:“我们致力于通过手机AI、影像和MR能力,短期满足用户对大屏沉浸感的需求,长远作为机器人的眼睛和大脑,攻克家庭这一非结构化场景下的‘感知-决策’难题,搭建未来家庭机器人…08-22百度Q2财报:广告业务下滑,AI新业务成业绩增长新动力百度新任CFO何海建在此次电话会上称,在过去的几个季度里,百度加大了AI投资力度,但由于AI搜索的商业化仍处于非常早期的阶段,尚未扩大规模,预计百度的收入和利润率在短期内面临相当大的压力,第三季度将特别具有…08-22文远知行WePilot AiDrive:年内量产,引领L2级辅助驾驶新革命08-22文远知行WePilot AiDrive:年内量产,引领L2级辅助驾驶新纪元08-22AI陪伴市场升温,雷军马斯克等资本大佬入局,长期记忆痛点待解郭戈称,资本追逐这一赛道并非偶然,因为陪伴本身就是玩具的核心价值,而AI的加入则赋予其“情绪价值”,扩大了市场蛋糕。 万物时创始人万一(Roy)也向时代周报记者强调,“情感陪伴一定是长期的本质需求,和文化消费…08-22智汇教育未来:名校长共探基础教育数字化变革新航向来自全国多地的名校长与专家学者齐聚一堂,围绕基础教育数字化变革、学校数字转型与智能升级、校长数字化领导力等核心议题,深入交流联盟内外部实践经验,共话智慧教育发展新路径。 论坛由教育数字化行动百校联盟联合北京师…08-22生成式AI投资热,但95%企业未见回报,AI价值何在?08-22DeepSeek-V3.1重磅升级:提升思考效率,强化Agent功能新体验08-22AI数学新突破:GPT-5 Pro独立推导数学结论,OpenAI总裁赞其为智能新里程碑08-22DeepSeek-V3.1发布,专为下一代国产芯片设计,性能大幅提升08-22AI赋能旅行社:马蜂窝绳志成详解智能化转型新策略08-22OpenAI员工完成60亿美元股票出售,公司估值跃升至5000亿美元08-22Lumen强化400Gbps数据中心连接,赋能AI经济,加速企业数字化转型Lumen Technologies对其美国网络的数据中心和云连接进行了重大升级,通过战略性扩张为大都市区提供高速数据中心连接能力。 Lumen表示,这将使客户能够轻松连接到数据中心和云接入点,扩展企业应用…08-21点击查看更多 +全站最新影石Insta360 GO Ultra口袋相机上市:4K60fps,磁吸设计售2598元影石Insta360 GO Ultra口袋相机上市:4K60fps,磁吸设计售2598元荣耀Magic V Flip2竖折旗舰闪耀登场,高定设计与强劲性能并重荣耀Magic V Flip2竖折旗舰闪耀登场,高定设计与强劲性能并重谷歌Pixel 10系列:AI技术全面升级,领先苹果打造智能新体验谷歌Pixel 10系列:AI技术全面升级,领先苹果打造智能新体验vivo Vision探索版亮相:轻量化设计,OriginOS Vision系统引领自然交互新体验vivo Vision探索版亮相:轻量化设计,OriginOS Vision系统引领自然交互新体验影石Insta360 GO Ultra口袋相机震撼上市:4K60fps,售价2598元影石Insta360 GO Ultra口袋相机震撼上市:4K60fps,售价2598元荣耀Magic V Flip2高颜值登场:2亿像素镜头+高定设计,售价5499元起荣耀Magic V Flip2高颜值登场:2亿像素镜头+高定设计,售价5499元起热门内容
  • 雷军抖音账号变动引热议:武汉大学标签悄然消失?
  • 阿里开源480B参数编程模型Qwen3-Coder,超越Kimi K2,强化学习训练细节公开
  • 云计算新纪元:云智融合引领未来趋势,安全与技术创新并行
  • 阿里巴巴1688升级AI服务:新品App与查询工具上线,赋能中小企业高效采购
  • 华为Mate 80系列爆料:全新麒麟9030,eSIM与低轨卫星通讯技术加持
  • 浙大发布“悟空”类脑计算机:神经元规模超20亿,模拟猕猴大脑
  • 2025年人工智能发展蓝图:趋势、格局与行业应用深度剖析
  • 光伏电站智能化管理:提升效率,降低成本,助力“双碳”目标实现
  • 雷军抖音账号母校标签“武汉大学”消失,或涉平台隐私调整
  • 国家网信办约谈英伟达:要求阐释H20算力芯片安全隐患及后门风险
  • 字节跳动AI底层架构领跑2025:技术、组织与财务全面赋能AI时代
  • 阿里自研旗舰AI眼镜WAIC 2025首发,探索智能终端新未来
  • 英伟达H20芯片安全风险引关注,网信办约谈要求说明“追踪定位”等技术详情
  • 马斯克将为Grok Heavy用户带来AI视频生成器及虚拟男友“Valentine”测试版
  • 清华系黑马!MonkeyCode成Cursor最强平替,保障代码安全
本栏最新牛津大学揭秘大型语言模型“深度诅咒”,层归一化缩放技术成破解关键牛津大学揭秘大型语言模型“深度诅咒”,层归一化缩放技术成破解关键字节跳动Seed团队开源推理大模型,Seed-OSS系列斩获7项SOTA成绩字节跳动Seed团队开源推理大模型,Seed-OSS系列斩获7项SOTA成绩vivo三十周年:发布轻量MR头显,影像生态战略全面革新vivo三十周年:发布轻量MR头显,影像生态战略全面革新vivo胡柏山:MR技术引领家庭机器人时代,共筑智能生活新愿景vivo胡柏山:MR技术引领家庭机器人时代,共筑智能生活新愿景百度Q2财报:广告业务下滑,AI新业务成业绩增长新动力百度Q2财报:广告业务下滑,AI新业务成业绩增长新动力文远知行WePilot AiDrive:年内量产,引领L2级辅助驾驶新革命文远知行WePilot AiDrive:年内量产,引领L2级辅助驾驶新革命

本文链接:http://www.28at.com/showinfo-45-26818-0.html牛津大学揭秘大型语言模型“深度诅咒”,层归一化缩放技术成破解关键

声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

显示全文

上一篇:恒扬数据:多芯异构技术引领,打造智算时代中心到边缘的完整解决方案

下一篇:字节跳动Seed团队开源推理大模型,Seed-OSS系列斩获7项SOTA成绩

最新热点