幻方发布全球最强MOE大模型! DeepSeek-V2
2024-05-07 09:08:42 软件 312观看
摘要1. 介绍今天,我们介绍了DeepSeek-V2,这是一个强大的专家混合(MoE)语言模型,其特点是训练经济且推理高效。它总共包含236B个参数,每个token激活21B个。与DeepSeek 67B相比,DeepSeek-V2实现了更强的性能,同时节省了42.5%的训练

1. 介绍

今天,我们介绍了DeepSeek-V2,这是一个强大的专家混合(MoE)语言模型,其特点是训练经济且推理高效。它总共包含236B个参数,每个token激活21B个。与DeepSeek 67B相比,DeepSeek-V2实现了更强的性能,同时节省了42.5%的训练成本,减少了93.3%的KV缓存,并将最大生成吞吐量提高了5.76倍。zAd28资讯网——每日最新资讯28at.com

图片图片zAd28资讯网——每日最新资讯28at.com

图片图片zAd28资讯网——每日最新资讯28at.com

我们在包含8.1万亿token的多样化和高质量语料库上预训练了DeepSeek-V2。随后,我们通过监督式微调(SFT)和强化学习(RL)的过程来充分释放模型的潜力。评估结果验证了我们方法的有效性,因为DeepSeek-V2在标准基准测试和开放式生成评估上都取得了显著的性能。zAd28资讯网——每日最新资讯28at.com

2. 模型下载

由于HuggingFace的限制,当前开源代码在GPU上运行时的性能比我们内部代码库慢。为了促进我们模型的有效执行,我们提供了一个专门的vllm解决方案,该解决方案优化了我们模型的运行性能。zAd28资讯网——每日最新资讯28at.com

ModelzAd28资讯网——每日最新资讯28at.com

Context LengthzAd28资讯网——每日最新资讯28at.com

DownloadzAd28资讯网——每日最新资讯28at.com

DeepSeek-V2
zAd28资讯网——每日最新资讯28at.com

128k
zAd28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-26-86986-0.html幻方发布全球最强MOE大模型! DeepSeek-V2

声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

显示全文

最新热点