DeepSeek 再放降本大招：NSA 官宣发布，加速推理降低成本，并且不牺牲性能-28资讯网—

DeepSeek 再放降本大招：NSA 官宣发布，加速推理降低成本，并且不牺牲性能

2025-02-20 09:33:28 AI 82观看

摘要 2 月 18 日消息，DeepSeek 今日官宣推出NSA（Native Sparse Attention），这是一种硬件对齐且原生可训练的稀疏注意力机制，用于超快速长上下文训练与推理。NSA 的核心组件包括：动态分层稀疏策略粗粒度 token 压缩细粒度

2 月 18 日消息，DeepSeek 今日官宣推出NSA（Native Sparse Attention），这是一种硬件对齐且原生可训练的稀疏注意力机制，用于超快速长上下文训练与推理。

NSA 的核心组件包括：

动态分层稀疏策略

粗粒度 token 压缩

细粒度 token 选择

DeepSeek 官方表示，该机制可优化现代硬件设计，加速推理同时降低预训练成本，并且不牺牲性能。在通用基准、长上下文任务和基于指令的推理上，其表现与全注意力模型相当或更加优秀。

附论文链接：

https://arxiv.org/abs/2502.11089

本文链接：http://www.28at.com/showinfo-45-10902-0.htmlDeepSeek 再放降本大招：NSA 官宣发布，加速推理降低成本，并且不牺牲性能

声明：本网页内容旨在传播知识，不代表本站观点，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

显示全文

最新热点