摩尔线程GPU实力展现:快速适配DeepSeek开源库,原生FP8计算能力引关注!
2025-02-27 08:21:38 资讯 61观看
摘要近日,DeepSeek宣布启动“开源周”活动,并陆续释放了三个重要的代码库资源。国产GPU领域的佼佼者摩尔线程迅速响应,成功完成了对FlashMLA和DeepGEMM两大开源项目的适配工作。摩尔线程此番适配的GPU产品,基于其自主研发的MU

近日,DeepSeek宣布启动“开源周”活动,并陆续释放了三个重要的代码库资源。国产GPU领域的佼佼者摩尔线程迅速响应,成功完成了对FlashMLA和DeepGEMM两大开源项目的适配工作。hXX28资讯网——每日最新资讯28at.com

摩尔线程此番适配的GPU产品,基于其自主研发的MUSA Compute Capability 3.1计算架构。这一架构不仅提供了原生的FP8精度计算能力,还对高性能线性代数模板库MUTLASS进行了全面升级,从而快速支持了FlashMLA的应用。hXX28资讯网——每日最新资讯28at.com

不仅如此,摩尔线程还充分利用了MUTLASS的优势,在新一代GPU架构上实现了FP8矩阵乘法的优化。这一成果使得摩尔线程的GPU能够完美支持DeepGEMM的相关功能,进一步提升了其在大规模模型训练和推理方面的性能。hXX28资讯网——每日最新资讯28at.com

FlashMLA是一个专注于加速MLA推理的内核开源项目,特别适用于DeepSeek系列模型,如DeepSeek-V2、V3和R1等。而DeepGEMM则是一个专为密集矩阵与混合专家(MoE)矩阵乘法设计的FP8 GEMM库,能够为V3/R1的训练与推理提供强大的计算支持。hXX28资讯网——每日最新资讯28at.com

这两个开源项目均基于高性能通用矩阵乘法(GEMM)的C++模板库进行开发,具有极高的灵活性和可扩展性。摩尔线程能够快速适配这些项目,得益于其GPU架构的创新设计和MUTLASS库的强大支持。hXX28资讯网——每日最新资讯28at.com

摩尔线程的新一代GPU不仅具备全新的Tensor计算引擎和数据搬运引擎,还提供了原生FP8计算能力。这使得摩尔线程的GPU在处理前沿算法时,能够保持足够高的累加精度,无需额外的二次精度修正。hXX28资讯网——每日最新资讯28at.com

MUTLASS 0.2.0版本的发布,更是为摩尔线程的开源生态注入了新的活力。借助这一版本,摩尔线程推出了MT-FlashMLA开源仓库,实现了对DeepSeek FlashMLA的快速兼容部署。同时,MUTLASS还提供了一个全新的参考实现,充分借鉴了FlashAttention3的先进算法思想,为摩尔线程GPU设计了高效的计算流水线。hXX28资讯网——每日最新资讯28at.com

hXX28资讯网——每日最新资讯28at.com

这一计算流水线的设计,有效隐藏了数据搬运的延迟和Softmax计算的开销,充分发挥了摩尔线程MUSA Compute Capability 3.1全功能GPU的Tensor计算效率。这无疑为摩尔线程在AI计算领域的竞争力注入了强劲的动力。hXX28资讯网——每日最新资讯28at.com

对于开发者而言,摩尔线程的开源资源无疑是一笔宝贵的财富。他们可以通过访问以下链接,获取MT-FlashMLA和MUTLASS的相关资源:hXX28资讯网——每日最新资讯28at.com

MT-FlashMLA开源地址:https://github.com/MooreThreads/MT-flashMLAhXX28资讯网——每日最新资讯28at.com

MUTLASS FlashAttention3地址:https://github.com/MooreThreads/mutlass/tree/main/experimental/mp31_flash_attention_fwdhXX28资讯网——每日最新资讯28at.com

举报 0收藏 0打赏 0评论 0  更多>同类资讯中科曙光FlashNexus刷新SPC-1基准测试纪录,登顶全球存储性能巅峰!02-26be quiet! Pure Base 501机箱新增LX、DX版,ARGB灯效亮眼登场02-26EK发布RTX 5090 FE定制水冷头,329.9欧,高性能散热还带RGB灯效02-26海南商业航天发射场二期:可复用火箭测控船项目正式签约!02-26天智航2024年业绩快报:营收下滑,净亏损收窄至1.23亿元02-26攀枝花光解水制氢项目落地,绿氢产业迎来商业化新篇章!02-26迈信林2024年净利大增近2倍,业绩快报亮点抢先看!02-26《哪吒2》IP衍生品火爆,品牌厂商加速生产冲刺“千户千吒”市场02-26天智航2024年财报:手术机器人“第一股”业绩初现曙光,净亏损大幅收窄02-26RTX 5060 Ti即将发布:功耗升至180W,显存配置仍为8GB/16GB02-26smart精灵#1黑金灵限量版来袭!21.99万仅售500台,你心动了吗?02-26威高血净IPO过会,年营收达36亿,拟募资13.5亿,华兴资本持股其中02-26smart精灵#1黑金灵限量版来袭!21.99万仅500台,你会抢购吗?02-26掌阅科技股东量子跃动计划减持股份 不超过公司总股本1%02-26小米15 Ultra影像旗舰来袭!2亿像素长焦+骁龙8 Elite,性能与影像巅峰对决?02-26点击查看更多 +全站最新奇瑞艾瑞泽8 PRO新车型预售在即,A+级家轿外观内饰全面升级!奇瑞艾瑞泽8 PRO新车型预售在即,A+级家轿外观内饰全面升级!be quiet! Pure Base 501机箱新增LX、DX版,ARGB灯效亮眼登场be quiet! Pure Base 501机箱新增LX、DX版,ARGB灯效亮眼登场极氪智能科技离线部署AI大模型,8295座舱平台车型年内全落地极氪智能科技离线部署AI大模型,8295座舱平台车型年内全落地上汽安吉物流“两港三地”汽车吞吐量领跑全球,年吞吐363万辆!上汽安吉物流“两港三地”汽车吞吐量领跑全球,年吞吐363万辆!无极SR250GT双版本焕新来袭,DeepSeek大模型赋能,售价15980元起!无极SR250GT双版本焕新来袭,DeepSeek大模型赋能,售价15980元起!EK发布RTX 5090 FE定制水冷头,329.9欧,高性能散热还带RGB灯效EK发布RTX 5090 FE定制水冷头,329.9欧,高性能散热还带RGB灯效热门内容
  • 《哪吒之魔童降世》票房破110亿,全球影史排名第十二!《美国队长4》上映票房如何?
  • 2025春节档火爆!《哪吒之魔童闹海》领跑,总票房直逼55亿大关
  • 浙大智能体“浙大先生”上线,全国829所高校师生可免费共享DeepSeek
  • 《唐探1900》春节档上映,豆瓣评分6.7,口碑两极分化?
  • 金价飙升!847元/克金饰创新高,黄金牛市还能走多远?
  • 浙大DeepSeek全国高校开放!829所学子免费用,告别系统繁忙
  • 《哪吒2》票房高歌猛进,全球动画电影榜冲进前三!
  • 《哪吒之魔童闹海》票房破20亿,领跑春节档,第三部还会远吗?
  • 《哪吒之魔童闹海》春节档大捷,单日票房破17亿刷新动画电影纪录!
  • 《蛟龙行动》遇一星差评潮,于冬怒批豆瓣粉圈互黑,誓言影片绝不撤档!
  • 美摄科技胜诉!字节跳动8款产品被判代码抄袭赔偿8266万
  • 《熊出没》动画电影系列十一部齐发力,总票房突破80亿大关!
  • 2025年春节档电影盛宴:六部大片齐贺岁,哪部将成票房黑马?
  • 导演票房榜大洗牌:饺子跻身前三,张艺谋紧随其后
  • 短剧热度榜揭晓!《行道者之剑二十四》登顶,大盘热度破6000万
本栏最新中科曙光FlashNexus刷新SPC-1基准测试纪录,登顶全球存储性能巅峰!中科曙光FlashNexus刷新SPC-1基准测试纪录,登顶全球存储性能巅峰!be quiet! Pure Base 501机箱新增LX、DX版,ARGB灯效亮眼登场be quiet! Pure Base 501机箱新增LX、DX版,ARGB灯效亮眼登场EK发布RTX 5090 FE定制水冷头,329.9欧,高性能散热还带RGB灯效EK发布RTX 5090 FE定制水冷头,329.9欧,高性能散热还带RGB灯效海南商业航天发射场二期:可复用火箭测控船项目正式签约!海南商业航天发射场二期:可复用火箭测控船项目正式签约!天智航2024年业绩快报:营收下滑,净亏损收窄至1.23亿元天智航2024年业绩快报:营收下滑,净亏损收窄至1.23亿元攀枝花光解水制氢项目落地,绿氢产业迎来商业化新篇章!攀枝花光解水制氢项目落地,绿氢产业迎来商业化新篇章!

本文链接:http://www.28at.com/showinfo-16-134118-0.html摩尔线程GPU实力展现:快速适配DeepSeek开源库,原生FP8计算能力引关注!

声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

显示全文

上一篇:涂鸦智能Q4财报亮点:营收增27%,利息收入助盈利,派息达3700万美元

下一篇:中科曙光FlashNexus刷新SPC-1基准测试纪录,登顶全球存储性能巅峰!

最新热点