近日,DeepSeek宣布启动“开源周”活动,并陆续释放了三个重要的代码库资源。国产GPU领域的佼佼者摩尔线程迅速响应,成功完成了对FlashMLA和DeepGEMM两大开源项目的适配工作。
摩尔线程此番适配的GPU产品,基于其自主研发的MUSA Compute Capability 3.1计算架构。这一架构不仅提供了原生的FP8精度计算能力,还对高性能线性代数模板库MUTLASS进行了全面升级,从而快速支持了FlashMLA的应用。
不仅如此,摩尔线程还充分利用了MUTLASS的优势,在新一代GPU架构上实现了FP8矩阵乘法的优化。这一成果使得摩尔线程的GPU能够完美支持DeepGEMM的相关功能,进一步提升了其在大规模模型训练和推理方面的性能。
FlashMLA是一个专注于加速MLA推理的内核开源项目,特别适用于DeepSeek系列模型,如DeepSeek-V2、V3和R1等。而DeepGEMM则是一个专为密集矩阵与混合专家(MoE)矩阵乘法设计的FP8 GEMM库,能够为V3/R1的训练与推理提供强大的计算支持。
这两个开源项目均基于高性能通用矩阵乘法(GEMM)的C++模板库进行开发,具有极高的灵活性和可扩展性。摩尔线程能够快速适配这些项目,得益于其GPU架构的创新设计和MUTLASS库的强大支持。
摩尔线程的新一代GPU不仅具备全新的Tensor计算引擎和数据搬运引擎,还提供了原生FP8计算能力。这使得摩尔线程的GPU在处理前沿算法时,能够保持足够高的累加精度,无需额外的二次精度修正。
MUTLASS 0.2.0版本的发布,更是为摩尔线程的开源生态注入了新的活力。借助这一版本,摩尔线程推出了MT-FlashMLA开源仓库,实现了对DeepSeek FlashMLA的快速兼容部署。同时,MUTLASS还提供了一个全新的参考实现,充分借鉴了FlashAttention3的先进算法思想,为摩尔线程GPU设计了高效的计算流水线。

这一计算流水线的设计,有效隐藏了数据搬运的延迟和Softmax计算的开销,充分发挥了摩尔线程MUSA Compute Capability 3.1全功能GPU的Tensor计算效率。这无疑为摩尔线程在AI计算领域的竞争力注入了强劲的动力。
对于开发者而言,摩尔线程的开源资源无疑是一笔宝贵的财富。他们可以通过访问以下链接,获取MT-FlashMLA和MUTLASS的相关资源:
MT-FlashMLA开源地址:https://github.com/MooreThreads/MT-flashMLA
MUTLASS FlashAttention3地址:https://github.com/MooreThreads/mutlass/tree/main/experimental/mp31_flash_attention_fwd
举报 0收藏 0打赏 0评论 0分享 0 更多>同类资讯
中科曙光FlashNexus刷新SPC-1基准测试纪录,登顶全球存储性能巅峰!02-26
be quiet! Pure Base 501机箱新增LX、DX版,ARGB灯效亮眼登场02-26
EK发布RTX 5090 FE定制水冷头,329.9欧,高性能散热还带RGB灯效02-26
海南商业航天发射场二期:可复用火箭测控船项目正式签约!02-26
天智航2024年业绩快报:营收下滑,净亏损收窄至1.23亿元02-26
攀枝花光解水制氢项目落地,绿氢产业迎来商业化新篇章!02-26
迈信林2024年净利大增近2倍,业绩快报亮点抢先看!02-26
《哪吒2》IP衍生品火爆,品牌厂商加速生产冲刺“千户千吒”市场02-26
天智航2024年财报:手术机器人“第一股”业绩初现曙光,净亏损大幅收窄02-26
RTX 5060 Ti即将发布:功耗升至180W,显存配置仍为8GB/16GB02-26
smart精灵#1黑金灵限量版来袭!21.99万仅售500台,你心动了吗?02-26
威高血净IPO过会,年营收达36亿,拟募资13.5亿,华兴资本持股其中02-26
smart精灵#1黑金灵限量版来袭!21.99万仅500台,你会抢购吗?02-26掌阅科技股东量子跃动计划减持股份 不超过公司总股本1%02-26
小米15 Ultra影像旗舰来袭!2亿像素长焦+骁龙8 Elite,性能与影像巅峰对决?02-26点击查看更多 +全站最新
奇瑞艾瑞泽8 PRO新车型预售在即,A+级家轿外观内饰全面升级!
be quiet! Pure Base 501机箱新增LX、DX版,ARGB灯效亮眼登场
极氪智能科技离线部署AI大模型,8295座舱平台车型年内全落地
上汽安吉物流“两港三地”汽车吞吐量领跑全球,年吞吐363万辆!
无极SR250GT双版本焕新来袭,DeepSeek大模型赋能,售价15980元起!
EK发布RTX 5090 FE定制水冷头,329.9欧,高性能散热还带RGB灯效热门内容
中科曙光FlashNexus刷新SPC-1基准测试纪录,登顶全球存储性能巅峰!
be quiet! Pure Base 501机箱新增LX、DX版,ARGB灯效亮眼登场
EK发布RTX 5090 FE定制水冷头,329.9欧,高性能散热还带RGB灯效
海南商业航天发射场二期:可复用火箭测控船项目正式签约!
天智航2024年业绩快报:营收下滑,净亏损收窄至1.23亿元
攀枝花光解水制氢项目落地,绿氢产业迎来商业化新篇章!
本文链接:http://www.28at.com/showinfo-16-134118-0.html摩尔线程GPU实力展现:快速适配DeepSeek开源库,原生FP8计算能力引关注!
声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。