在竞争激烈的大模型领域,华为凭借其7180亿参数的MoE架构模型openPangu-Ultra-MoE-718B,于最新一期SuperCLUE中文大模型通用基准测评中跻身前三,引发行业广泛关注。该测评通过数学推理、科学推理、代码生成等六大核心维度,综合评估1260道题目,华为模型在开源与国产模型赛道中展现出强劲实力。
与传统依赖海量数据堆砌的路径不同,openPangu团队提出“以思考替代堆砌”的训练哲学,构建了覆盖数据生成、筛选、增强的全流程质量控制体系。团队建立三级审核机制,结合规则模型与人工评估,严格过滤低质量样本;同时通过去重算法与压缩选样技术,在保证领域覆盖广度的前提下避免数据冗余。针对模型复杂场景推理能力不足的痛点,团队引入自迭代拒绝采样策略,重点强化中高难度任务训练,确保模型适应真实世界的复杂需求。
在预训练阶段,团队创新设计三阶段递进策略:通用阶段通过大规模文本与代码学习构建世界知识基础;推理阶段大幅提升数学、STEM及代码数据比重,并引入详细思维链(CoT)引导模型学习逻辑路径;退火阶段则通过阶梯式扩展上下文长度至128K,同步增加指令类数据与Agent交互数据,为模型使用外部工具奠定基础。这种分阶段强化核心能力的训练方式,有效平衡了模型的知识广度与推理深度。
针对大型语言模型普遍存在的幻觉问题,研究团队开发出“批判内化”机制。该机制突破传统批判微调依赖固定人类反馈的局限,在模型训练后期引入自我批判信号,使其能够根据任务准则主动审视推理过程。实验数据显示,这一创新使模型在逻辑链条完整性、指令遵从性及价值观对齐方面显著提升,输出结果更加精炼可靠。
在工具使用能力提升方面,团队推出ToolACE合成框架,通过领域工具组合、交互式轨迹生成等技术,生成高复杂度多轮工具调用数据。例如将日历查询与航班预订工具关联,提供依赖关系图谱;采用“计划-执行”分离策略模拟真实交互场景;引入多智能体对话生成复杂交互数据。多维校验机制则对生成数据进行内容满足度、状态变化正确性等维度评估,形成数据迭代优化的闭环。
后训练阶段,团队实施三步优化方案:渐进动态微调通过平滑过渡常规SFT与动态微调模式,避免过拟合风险;强化学习阶段采用GSPO算法提升大型MoE模型训练稳定性;模型融合环节运用黑盒优化技术,自动搜索不同版本模型的最佳组合权重。这种系统性优化策略,使最终模型在综合性能上实现质的飞跃。
openPangu-718B的成功实践表明,大模型竞争的核心已从数据规模转向技术深度。通过构建质量优先的数据体系、设计分阶段能力强化路径、创新幻觉控制机制、开发高仿真工具学习框架,华为为行业提供了技术突破的新范式。这种对技术细节的极致打磨,正重新定义大模型时代的核心竞争力标准。
更多>同类资讯象屿集团携手钉钉,借AI之力开启数智化新篇,3万员工共赴转型新程象屿集团此次与钉钉合作,不仅是AI技术平台的引入,更是双方对未来发展方向的高度共识。 值得一提的是,象屿集团此次全面引入钉钉One、DingTalk A1、AI听记、AI搜问、AI表格等钉钉AI新品,聚焦用…09-29云天励飞加入OISA生态,以“算力积木”助力国产AI算力突破MoE大模型瓶颈凭借在 AI 推理芯片与算力架构的长期积累,云天励飞成为 OISA 生态的重要一员。 未来,云天励飞将继续秉持“AI时代的加速器”愿景,持续迭代芯片技术与架构创新,携手 OISA 生态伙伴,共同推动智能算…09-29四川资源集团携手华为 共绘智慧矿山蓝图 探索数智化赋能新路径封面新闻记者 付文超9月29日,记者获悉,四川省自然资源投资集团有限责任公司(以下简称“四川资源集团”)与华为技术有限公司(以下简称“华为”)签署框架合作协议。 根据协议,双方将在智慧矿山规划和建设、人工智…09-29Flash Attention作者Tri Dao:英伟达GPU主导地位或三年内瓦解,AI硬件将迎多元生态他们设计了非常好的芯片,也有非常好的软件支持,这让我能够做很多有意思的事情,而这正是我追求的:能不能做出有意思的东西。举例我做的Mamba,思路是让模型把历史压缩成更小的状态向量,而不是保存完整的KV c…09-29长智具身智能科技公司在海南成立 智元机器人长飞光纤等携手布局09-29AMD与NVIDIA下一代AI GPU竞速:设计迭代升级,技术差距或缩小09-29中国算力生态竞速:华为开源破局,产业链协同共筑全球竞争力09-29奥特曼携OpenAI大举布局AI投资,与英伟达等合作能否成就AI未来?09-29第22届东博会AI元素爆棚:“黑科技”互动不断,共绘中国—东盟新蓝图09-29科技浪潮下的人文温度:莫言忆小学课堂“粉笔头”里的鲜活记忆09-29俄罗斯数字服务员亮相高端餐厅:AI精准推荐,重塑餐饮服务新体验09-29高德云栖大会亮剑:空间智能赋能千行百业,构建物理世界交互新生态09-29京东JDD大会发布AI全景图,推三大新品四大应用,绘万亿AI生态蓝图该体系依托Joy AI大模型打造丰富的系统能力和多元化智能体,通过AI技术构建电商购物、供应链管理等智能应用场景,系统展现了AI技术在京东电商业务中的应用,描摹出京东零售面向未来的AI电商蓝图。同时,承载新一…09-29“人机共创”三重真相:AI为翼 人为舵 共拓创作新边界09-29科普月里院士齐发力:以多样形式播撒科学种子,点燃公众科学梦09-29点击查看更多 +全站最新
科大讯飞P30学习机:宝妈育儿好帮手,护眼又高效,孩子学习更轻松
王心凌倾情代言!马自达EZ-60携双动力上市,11.99万起开启合资新体验
深蓝汽车X华为乾崑长沙试驾落幕:智能增程齐发力,亲子互动共团圆
MAZDA EZ-60售价11.99万元起,王心凌代言,智能配置拉满开启电动新篇
小米定制服务:以顶级工艺邂逅个性色彩,三年百色计划解锁专属汽车美学
小米新品发布会全览:一图解锁系列新品亮点与指南热门内容
第22届东博会AI元素亮眼:数字智能体引路 机器人炫技展风采
AI云竞争下半场:华为以超节点、企业Agent等破局,谁能领跑产业?
2025网安周:每日互动刘宇谈AI时代,知识安全成关键,共筑数字新未来
中国大模型DeepSeek首登Nature封面,R1训练成本仅约208万引关注
华为全联接大会2025启幕,发布全球最强算力超节点与集群
有鹿机器人+连合直租:以智能租赁模式,开启高端场景清洁新未来
本文链接:http://www.28at.com/showinfo-45-28568-0.html华为盘古718B模型脱颖而出:数据质量与技术创新双轮驱动
声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。