牛津大学揭秘大型语言模型“深度诅咒”，层归一化缩放技术成破解关键-28资讯网—

牛津大学揭秘大型语言模型“深度诅咒”，层归一化缩放技术成破解关键

2025-08-23 09:31:15 AI 122观看

摘要在人工智能领域，一项由牛津大学刘世伟教授领衔的国际合作研究近日引起了广泛关注。该研究联合了西湖大学、埃默里大学、大连理工大学及萨里大学等多家顶尖学府，其突破性成果已于2025年7月发表于人工智能领域的权威期刊

在人工智能领域，一项由牛津大学刘世伟教授领衔的国际合作研究近日引起了广泛关注。该研究联合了西湖大学、埃默里大学、大连理工大学及萨里大学等多家顶尖学府，其突破性成果已于2025年7月发表于人工智能领域的权威期刊上。论文题为《大型语言模型中的深度困境》，感兴趣的读者可访问arXiv:2502.05795v2获取全文。

该研究深入探讨了当前最先进的大型语言模型（例如ChatGPT、Claude等）在训练过程中的一个奇特现象：模型层次越深，后续层级的重要性反而越小。为了形象地说明这一问题，研究团队将其比喻为一座智慧大楼，其中每一层本应各司其职，共同为最终智能输出贡献力量。然而，他们惊人地发现，大楼的上半部分“工匠”几乎在消极怠工，即便移除这些层级，模型的整体表现也几乎不受影响。

为了验证这一现象的普遍性，研究团队选取了当前流行的多个大型语言模型家族作为测试对象，包括Llama、Mistral、DeepSeek和Qwen系列。他们巧妙地设计了一系列实验，通过逐一移除模型的不同层级，观察并记录模型性能的变化。实验结果令人震惊：移除深层的多个层级后，模型的表现几乎未受影响，甚至在某些情况下略有提升；相反，移除浅层的任何一层都会导致模型性能显著下降。

研究团队将这一奇特现象命名为“深度困境”。这一名称形象地揭示了当前大型语言模型训练中的一个根本矛盾：尽管我们投入了大量计算资源来训练更深的模型，期望获得更强的能力，但实际上，越深的层级对模型的贡献越小，仿佛被某种无形的困境所束缚。

为了深入理解这一现象，研究团队进一步分析了层与层之间表示的相似性。他们利用角度距离这一数学工具来测量不同层级的输出相似性。结果表明，在深层网络中，相邻层级的输出几乎完全相同，这意味着这些层级只是在重复前面层级的工作，没有产生任何新的有用信息。

研究团队还对比了两种不同的网络架构设计：现代大型语言模型普遍采用的“前置层归一化”（Pre-LN）与较早模型使用的“后置层归一化”（Post-LN）。通过对比实验，他们发现采用Pre-LN的模型更容易出现深度困境现象，而采用Post-LN的模型则表现出相反的趋势：深层比浅层更重要。这一发现为理解深度困境的根源提供了重要线索。

为了揭示深度困境的理论根源，研究团队深入探讨了Pre-LN架构的工作原理。他们发现，在Pre-LN架构中，随着网络层数的增加，输出的方差会呈指数级增长。这种增长导致深层网络的梯度趋近于单位矩阵，使得这些层级几乎变成了“透明层”，没有进行任何有意义的转换。为了直观理解这一概念，研究团队用烹饪过程进行了类比：如果后续步骤只是简单的“保温”操作，那么无论进行多少步骤，最终的味道都不会有太大变化。

面对这一棘手问题，研究团队提出了一个简洁而有效的解决方案：层归一化缩放（LNS）。这一方法的核心思想是通过给每一层的输出乘以一个与层深度相关的缩放因子来控制方差的增长。缩放因子等于当前层深度的平方根的倒数，即1/√l，其中l为层的索引。这种设计确保了每一层都能发挥其应有的作用，避免了深层网络的“偷懒”现象。

为了验证LNS的有效性，研究团队进行了大规模的实验验证。实验涵盖了从小型模型到大型模型的各种规模，结果显示LNS在所有测试规模上都显著优于传统的归一化方法。特别是在工业级别的训练规模下，LNS仍然表现出显著的性能提升。

研究团队还进行了下游任务的微调实验。他们使用Commonsense170K数据集在八个不同的推理任务上测试了经过LNS预训练的模型。结果显示，使用LNS预训练的模型在微调后的表现也明显优于传统方法。这表明LNS不仅改善了预训练效果，还增强了模型的通用学习能力。

为了深入理解LNS的工作机制，研究团队还进行了详细的分析实验。他们验证了LNS确实能够有效控制输出方差，并分析了LNS对层间表示多样性的影响。实验结果表明，LNS成功地让每一层都发挥了应有的作用，提高了模型的整体性能。

LNS的实现既简单又巧妙。它不需要引入额外的可学习参数或调整任何超参数，只需在每个层归一化操作的输出后乘以相应的缩放因子即可。这种设计既保持了Pre-LN的训练稳定性优势，又解决了深层网络效果不佳的问题。

值得注意的是，研究团队还发现LNS与某些初始化策略可能存在冲突。他们建议在使用LNS时移除缩放初始化以获得最佳性能提升。研究团队还将LNS应用到视觉Transformer中进行了初步探索，发现LNS的具体实现可能需要根据不同的模型架构和任务进行调整。

这项研究的实际应用价值巨大。当前训练大型语言模型需要消耗大量计算资源和能源，而深度困境意味着其中相当一部分投资实际上是浪费的。LNS的引入能够提高训练效率和最终性能，降低计算成本。

对于工业界来说，这意味着在相同的计算预算下可以获得更好的模型性能，或者在保持性能不变的情况下显著降低计算成本。考虑到大型语言模型的训练成本高昂，这种效率提升的经济价值不言而喻。

对于研究界来说，这项工作开启了重新审视现有架构设计的新视角。它表明，即使是被广泛采用的设计选择也可能存在根本性缺陷，需要更深入的理论分析来发现和解决。研究团队的工作为未来模型架构的设计提供了重要指导，强调了在追求更深、更大的模型时，必须仔细考虑深度对模型行为的影响。

举报 0收藏 0打赏 0评论 0 更多>同类资讯

字节跳动Seed团队开源推理大模型，Seed-OSS系列斩获7项SOTA成绩智东西8月21日报道，今天，字节跳动Seed团队开源了Seed-OSS系列模型，这些模型专为长上下文、推理、Agent和通用场景设计，将上下文窗口扩展至512k，是业界常见上下文窗口（128k）的4倍，GP…08-22

vivo三十周年：发布轻量MR头显，影像生态战略全面革新正值企业三十周年之际，vivo不仅重磅发布了混合现实头显探索版，还宣布了影像技术战略及影像文化生态的全新布局，并揭晓了2025 vivo影像加手机摄影大赛结果。作为国内首家同时布局手机与MR的科技企业，viv…08-22

vivo胡柏山：MR技术引领家庭机器人时代，共筑智能生活新愿景胡柏山在阐述vivo科技战略蓝图时提到：“我们致力于通过手机AI、影像和MR能力，短期满足用户对大屏沉浸感的需求，长远作为机器人的眼睛和大脑，攻克家庭这一非结构化场景下的‘感知-决策’难题，搭建未来家庭机器人…08-22

百度Q2财报：广告业务下滑，AI新业务成业绩增长新动力百度新任CFO何海建在此次电话会上称，在过去的几个季度里，百度加大了AI投资力度，但由于AI搜索的商业化仍处于非常早期的阶段，尚未扩大规模，预计百度的收入和利润率在短期内面临相当大的压力，第三季度将特别具有…08-22

文远知行WePilot AiDrive：年内量产，引领L2级辅助驾驶新革命08-22

文远知行WePilot AiDrive：年内量产，引领L2级辅助驾驶新纪元08-22

AI陪伴市场升温，雷军马斯克等资本大佬入局，长期记忆痛点待解郭戈称，资本追逐这一赛道并非偶然，因为陪伴本身就是玩具的核心价值，而AI的加入则赋予其“情绪价值”，扩大了市场蛋糕。万物时创始人万一（Roy）也向时代周报记者强调，“情感陪伴一定是长期的本质需求，和文化消费…08-22

智汇教育未来：名校长共探基础教育数字化变革新航向来自全国多地的名校长与专家学者齐聚一堂，围绕基础教育数字化变革、学校数字转型与智能升级、校长数字化领导力等核心议题，深入交流联盟内外部实践经验，共话智慧教育发展新路径。论坛由教育数字化行动百校联盟联合北京师…08-22生成式AI投资热，但95%企业未见回报，AI价值何在？08-22DeepSeek-V3.1重磅升级：提升思考效率，强化Agent功能新体验08-22AI数学新突破：GPT-5 Pro独立推导数学结论，OpenAI总裁赞其为智能新里程碑08-22

DeepSeek-V3.1发布，专为下一代国产芯片设计，性能大幅提升08-22AI赋能旅行社：马蜂窝绳志成详解智能化转型新策略08-22OpenAI员工完成60亿美元股票出售，公司估值跃升至5000亿美元08-22

Lumen强化400Gbps数据中心连接，赋能AI经济，加速企业数字化转型Lumen Technologies对其美国网络的数据中心和云连接进行了重大升级，通过战略性扩张为大都市区提供高速数据中心连接能力。 Lumen表示，这将使客户能够轻松连接到数据中心和云接入点，扩展企业应用…08-21点击查看更多 +全站最新