华为与DeepSeek联手会发生什么:算力已达英伟达60%、CANN取代CDUA架构
2025-02-05 15:43:37 手机 30观看
摘要 快科技2月5日消息,华为(昇腾+CANN)+Deepseek,能解决英伟达GPU+CUDA的“卡脖子”吗?据tomshardware等多家媒体报道,华为新的AI处理器昇腾910C(Ascend 910C)的推理性能已达NVIDIA H100 GPU的六成。根据Deep

快科技2月5日消息,华为(昇腾+CANN)+Deepseek,能解决英伟达GPU+CUDA的“卡脖子”吗?OTz28资讯网——每日最新资讯28at.com

据tomshardware等多家媒体报道,华为新的AI处理器昇腾910C(Ascend 910C)的推理性能已达NVIDIA H100 GPU的六成。OTz28资讯网——每日最新资讯28at.com

华为与DeepSeek联手会发生什么:算力已达英伟达60%、CANN取代CDUA架构OTz28资讯网——每日最新资讯28at.com

根据DeepSeek 研究人员的测试,在推理任务中,昇腾910C性能可达H100的60%。据悉,升腾910C采用chiplet封装,第二代7nm级(N+2)工艺,整合约530亿个晶体管。 OTz28资讯网——每日最新资讯28at.com

虽然昇腾910C并非当前强AI芯片,但它有助于降低中国对NVIDIA GPU的依赖。OTz28资讯网——每日最新资讯28at.com

此外,通过手动优化CANN内核,其效率可以进一步提高。DeepSeek对昇腾处理器及其 PyTorch存储库的原生支持允许以小的的资源代价,实现CUDA到CANN的无缝转换,从而更容易将华为的硬件集成到AI工作流程中。OTz28资讯网——每日最新资讯28at.com

华为与DeepSeek联手会发生什么:算力已达英伟达60%、CANN取代CDUA架构OTz28资讯网——每日最新资讯28at.com

据了解,DeepSeek的支持为华为芯片带来了关键优势:从第一天起就支持华为昇腾芯片,自主维护PyTorch仓库,只需一行代码就能将CUDA转换为CANN;而且性能优化潜力巨大,通过定制优化可达到更高性能。OTz28资讯网——每日最新资讯28at.com

据华为官网介绍,CANN(Compute Architecture for Neural Networks)是昇腾针对AI场景推出的异构计算架构,对上支持多种AI框架,对下服务AI处理器与编程,发挥承上启下的关键作用,是提升昇腾AI处理器计算效率的关键平台。同时针对多样化应用场景,提供高效易用的编程接口,支持用户快速构建基于昇腾平台的AI应用和业务。OTz28资讯网——每日最新资讯28at.com

华为与DeepSeek联手会发生什么:算力已达英伟达60%、CANN取代CDUA架构OTz28资讯网——每日最新资讯28at.com

据了解,CANN分社区版和商用版。前者是快速提供新特性的体验版,供开发者提前试用;而后者是满足商用标准的稳定版本。OTz28资讯网——每日最新资讯28at.com

目前,CANN社区版已经来到了8.0.0.alpha003版本,针对Ascend C进行了特性增强。而商用版CANN 8.0.RC3版本也已经发布,新增适配7个操作系统,简化了CANN安装流程。OTz28资讯网——每日最新资讯28at.com

华为与DeepSeek联手会发生什么:算力已达英伟达60%、CANN取代CDUA架构OTz28资讯网——每日最新资讯28at.com

DeepSeek的Yuchen Jin表示,长期训练可靠性是中国处理器的一个关键弱点。OTz28资讯网——每日最新资讯28at.com

主要是NNVIDIA硬件和软件生态系统的深度集成,该生态系统已经发展了二十多年。虽然推理性能可以优化,但持续的训练工作负载需要华为的硬件和软件堆栈进一步改进。OTz28资讯网——每日最新资讯28at.com

而随着AI模型架构向Transformer收敛,CUDA和PyTorch编译器的重要性将降低。DeepSeek团队的加入将显著降低对NVIDIA的依赖,大幅节省成本。OTz28资讯网——每日最新资讯28at.com

华为与DeepSeek联手会发生什么:算力已达英伟达60%、CANN取代CDUA架构OTz28资讯网——每日最新资讯28at.com

无独有偶。此前有消息称,DeepSeek开发的大语言模型绕过了英伟达的CUDA框架,正为未来兼容国产GPU芯片做准备。OTz28资讯网——每日最新资讯28at.com

新发现显示,DeepSeek使用英伟达的H800芯片训练时,使用英伟达底层硬件指令PTX(Parallel Thread Execution)语言,而非高级编程语言CUDA。OTz28资讯网——每日最新资讯28at.com

这样意味着DeepSeek绕过了CUDA,使用更底层的编程语言做优化。OTz28资讯网——每日最新资讯28at.com

对于程序开发人员来说,CUDA是一种更加友好的高级语言,开发者只需要专注于程序和算法相关的运行逻辑,而不太需要考虑具体的程序是如何在GPU等硬件上具体如何执行计算的,从而能够降低开发难度。OTz28资讯网——每日最新资讯28at.com

而PTX在接近汇编语言的层级运行,允许进行细粒度的优化,如寄存器分配和Thread / Warp级别的调整。这种编程非常复杂且难以维护,所以行业通用的做法是使用CUDA这样的高级编程语言。OTz28资讯网——每日最新资讯28at.com

换句话说,DeepSeek把优化做到了极致。OTz28资讯网——每日最新资讯28at.com

北京航空航天大学副教授黄雷表示,绕过CUDA可以直接根据GPU的驱动函数做一些新的开发,从而实现更加细粒度的操作。OTz28资讯网——每日最新资讯28at.com

这也说明DeepSeek拥有一些擅长写PTX语言的内部开发者。假如它之后使用国产GPU,其在硬件适配方面将会更得心应手,其只要了解这些硬件驱动提供的一些基本函数接口就可以仿照英伟达GPU硬件的编程接口去写相关的代码,从而让自家大模型更加容易适配国产硬件。OTz28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-22-128723-0.html华为与DeepSeek联手会发生什么:算力已达英伟达60%、CANN取代CDUA架构

声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

显示全文

上一篇:OPPO Find N5官宣:全球薄折叠屏 两周后亮相

下一篇:小米手机官方换电池限时8折:79.2元起!覆盖38款机型

最新热点