随着人工智能领域对算力的需求呈现指数级增长,大智算集群已成为模型训练不可或缺的基础设施。这一趋势的背后,是模型参数与数据量的不断膨胀,驱动着算力需求的急剧上升。从GPT、Llama到Grok等主流模型的发展历程中,算力需求的增长尤为显著,Grok-4等最新模型的算力需求已较早期模型提升了近千倍。eqE28资讯网——每日最新资讯28at.com
在大规模集群训练的场景下,算力需求的增长带来了前所未有的挑战。以DeepSeek、Kimi K2及GPT-4等模型为例,其训练所需的算力及时间成本均极为高昂。即便是采用高性能的英伟达H100集群,训练这些模型也需耗费数十天乃至数百天的时间。因此,单纯依靠扩大集群规模已难以满足当前的算力需求,亟需探索新的解决方案。eqE28资讯网——每日最新资讯28at.com
在这一背景下,低精度训练成为了提升训练效率的关键途径。从FP32到FP16,再到如今的FP8,精度的降低带来了算力的显著提升。然而,精度的下降也伴随着模型效果的损失。如何在精度与算力之间找到平衡点,成为了业界关注的焦点。摩尔线程副总裁王华在WAIC2025期间的摩尔线程技术分享日上,以《基于FP8的国产万卡训练》为主题,分享了摩尔线程在这一领域的创新与思考。eqE28资讯网——每日最新资讯28at.com
王华指出,通过引入精度参数,可以构建新的Scaling Law模型,从而在参数量、数据量与精度之间找到最优配置。实验结果表明,FP8成为了精度与算力之间的最佳平衡点。然而,低精度训练也面临着诸多挑战,如数值范围小、易上溢下溢等问题。为解决这些问题,摩尔线程采用了混合精度训练等技术手段,对非敏感部分采用FP8进行计算,而对敏感部分则继续使用高精度。eqE28资讯网——每日最新资讯28at.com
eqE28资讯网——每日最新资讯28at.com
在软硬件支持方面,摩尔线程提供了全栈的完整解决方案。硬件上,其GPU支持从FP64到FP8的全精度算力;软件上,摩尔线程推出了Torch-MUSA、MT-MegatronLM及MT-TransformerEngine等开源框架,这些框架均支持FP8混合精度训练,并实现了对FP8数据类型的完整支持。在此基础上,摩尔线程成功复现了DeepSeek-V3的整个训练过程,成为业内率先能复现DeepSeek满血版训练的厂商。eqE28资讯网——每日最新资讯28at.com
王华还分享了摩尔线程在FP8训练上的探索与实验。在scaling factor的选择及outlier的影响等方面,摩尔线程进行了深入的研究,并提出了有效的解决方案。例如,在scaling factor的选择上,摩尔线程采用了Per-Tensor及JIT动态的scaling factor选择策略;在降低outlier影响方面,则采用了Smooth SwiGLU等技术手段。eqE28资讯网——每日最新资讯28at.com
在大规模集群训练方面,摩尔线程同样取得了显著的进展。为提高集群训练的可靠性,摩尔线程引入了起飞检查、飞行检查及落地检查等训练生命周期管理措施。同时,针对慢节点及容错训练等问题,摩尔线程也提出了相应的解决方案。例如,在慢节点检测方面,摩尔线程通过起飞检查阶段的小工作负载测试及训练过程中的通信执行时间监测等手段,有效识别并解决了慢节点问题;在容错训练方面,则采用了动态摘除故障节点等策略,确保了集群训练的持续稳定运行。eqE28资讯网——每日最新资讯28at.com
eqE28资讯网——每日最新资讯28at.com
王华的分享不仅展示了摩尔线程在FP8低精度训练及大规模集群训练方面的创新成果,也为业界提供了宝贵的参考与借鉴。随着人工智能技术的不断发展,摩尔线程将继续深耕这一领域,为人工智能的未来发展贡献更多力量。eqE28资讯网——每日最新资讯28at.com
举报 0收藏 0打赏 0分享 3 更多>同类资讯2025年:中国芯片企业借AI浪潮,破局重生2025年是AI应用的爆发年,也是关乎国产算力企业兴衰存亡的关键之年。现在真正做到了芯片、模型助力场景应用,场景反馈回来的数据,又增加了模型跟芯片进一步地迭代,形成了一个非常良性的正向循环。”我们从芯片厂商的…08-04

企业数字化转型新指南:深度解读IOMM成熟度模型中国建设银行构建了以"龙舟"运维PaaS平台为基础的工具体系,涵盖18个公共组件和35个运维业务应用,通过云计算风险管理框架抵御百万次网络攻击,同时面向客户提供多元化金融科技服务,实现了IT部门向价值中心的转…08-04

AI+安全:赋能与风险并存,安全大模型一体机成厂商新赛道以ChatGPT 为代表的生成式人工智能技术在网络安全领域是一把“双刃剑”,一方面,AI可以赋能网络安全,提升风险检测与防护能力;另一方面,AI 的滥用将对国家、社会、公众带来负面影响,同时,AI 新技术的…08-04

浙大发布“悟空”类脑计算机:神经元规模超20亿,模拟猕猴大脑快科技8月2日消息,浙江大学脑机智能全国重点实验室正式发布了新一代神经拟态类脑计算机——Darwin Monkey,中文名 “悟空”。整台计算机支持的脉冲神经元规模超过20亿,数量已接近猕猴大脑规模。 达尔…08-04

沈阳新注册低空经济公司,注册资本高达1.1亿,或将引领产业新风向08-03

新石器无人车公司注册资本大幅提升,增至3705万元!08-03

华为哈勃携手入股清程极智,国产算力软件服务商再添新动力08-03

软通动力携手芯粒微,共探芯片研发新领域08-03

科大讯飞布局AI领域,新商标“AI星朋友”引发关注08-03

科大讯飞携手上海云休信息科技,云享智慧第二大股东迎新伙伴08-03

软通动力海南布局,新设国际科技公司注册资本高达5亿08-03

优必选布局衢州,新科技公司成立注册资本达3000万08-03

2025人工智能大会亮点:上半年AI企业激增50余万家,新趋势何在?08-03

重庆10亿级半导体私募股权投资基金“两江芯徵程”正式成立08-03

天津艾锐人工智能创业投资基金成立,2亿资金助力人才创新08-03点击查看更多 +
全站最新
2025世界机器人大会启幕在即:智慧机器人,共筑智能未来

中国科研团队突破:用“蒸笼法”制造高性能硒化铟晶体管材料

小米ChinaJoy打造“人车家”智能生态展,全方位演绎科技生活新图景

小米电竞新机曝光:玄戒处理器+165Hz屏+9千毫安电池,游戏党福音?

智界R7改款座椅大升级,余承东预告8月8日开启小订

小米自研玄戒处理器电竞手机曝光:165Hz屏+9千毫安电池,性能对标顶尖
热门内容- 雷军抖音账号变动引热议:武汉大学标签悄然消失?
- 华为盘古大模型风波:内部员工揭露研发过程中的套壳与续训问题
- 阿里开源480B参数编程模型Qwen3-Coder,超越Kimi K2,强化学习训练细节公开
- Cursor断供风波:AI开发圈震荡,程序员呼吁退款引热议
- 荣耀X70评测:耐用新标杆,IP69K防水抗摔,8300mAh电池续航无忧
- 阿里开源Qwen3-Coder,AI编程能力媲美Claude4,新手一天顶资深一周
- 华为盘古大模型被指抄袭?开发团队正式回应:尊重知识产权,否认指控
- 阿里巴巴1688升级AI服务:新品App与查询工具上线,赋能中小企业高效采购
- 华为Mate 80系列爆料:全新麒麟9030,eSIM与低轨卫星通讯技术加持
- 华为鸿蒙5.1系统7月31日升级:Pura80领衔,30余款设备迎新体验
- 光伏电站智能化管理:提升效率,降低成本,助力“双碳”目标实现
- 雷军抖音账号母校标签“武汉大学”消失,或涉平台隐私调整
- 华为盘古大模型被指抄袭?开发团队正式回应:遵循开源规范
- 国家网信办约谈英伟达:要求阐释H20算力芯片安全隐患及后门风险
- 阿里自研旗舰AI眼镜WAIC 2025首发,探索智能终端新未来
本栏最新
企业数字化转型新指南:深度解读IOMM成熟度模型

AI+安全:赋能与风险并存,安全大模型一体机成厂商新赛道

浙大发布“悟空”类脑计算机:神经元规模超20亿,模拟猕猴大脑

沈阳新注册低空经济公司,注册资本高达1.1亿,或将引领产业新风向

新石器无人车公司注册资本大幅提升,增至3705万元!

华为哈勃携手入股清程极智,国产算力软件服务商再添新动力