DeepSeek 再放降本大招:NSA 官宣发布,加速推理降低成本,并且不牺牲性能
2025-02-20 09:33:28 AI 25观看
摘要 2 月 18 日消息,DeepSeek 今日官宣推出NSA(Native Sparse Attention),这是一种硬件对齐且原生可训练的稀疏注意力机制,用于超快速长上下文训练与推理。NSA 的核心组件包括:动态分层稀疏策略粗粒度 token 压缩细粒度

2 月 18 日消息,DeepSeek 今日官宣推出NSA(Native Sparse Attention),这是一种硬件对齐且原生可训练的稀疏注意力机制,用于超快速长上下文训练与推理。Fom28资讯网——每日最新资讯28at.com

Fom28资讯网——每日最新资讯28at.com

NSA 的核心组件包括:Fom28资讯网——每日最新资讯28at.com

动态分层稀疏策略Fom28资讯网——每日最新资讯28at.com

粗粒度 token 压缩Fom28资讯网——每日最新资讯28at.com

细粒度 token 选择Fom28资讯网——每日最新资讯28at.com

DeepSeek 官方表示,该机制可优化现代硬件设计,加速推理同时降低预训练成本,并且不牺牲性能。在通用基准、长上下文任务和基于指令的推理上,其表现与全注意力模型相当或更加优秀。Fom28资讯网——每日最新资讯28at.com

Fom28资讯网——每日最新资讯28at.com

附论文链接:Fom28资讯网——每日最新资讯28at.com

https://arxiv.org/abs/2502.11089Fom28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-10902-0.htmlDeepSeek 再放降本大招:NSA 官宣发布,加速推理降低成本,并且不牺牲性能

声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

显示全文

上一篇:深圳回应 AI 公务员上岗 :仅辅助政务,不能单独决策

下一篇:马斯克首次披露 Grok 3 训练成本:20 万块英伟达 GPU

最新热点