浪潮信息宣布元脑企智一体机已率先完成对 Kimi K2 万亿参数大模型的适配支持,并实现单用户 70 tokens / s 的流畅输出速度,为企业客户高效部署应用大模型提供高处理性能和完善的软件工具平台支持。
Kimi K2 是月之暗面推出的开源万亿参数大模型,创新使用了 MuonClip 优化器进行训练,大幅提升了模型的学习效率。K2 在代码生成、数学推理、Agent 多步骤任务上展现出领先能力,评测指标达到业界领先水平。自发布以来,K2 在开发者和研究社区引起广泛关注,迅速获得在编码辅助和 Agent 驱动自动化任务中的部署应用。
Kimi K2 的模型总参数量达 1 万亿,激活参数为 320 亿。K2 使用混合专家(MoE)模型结构,较 DeepSeek V3 采用了更大的参数量和更多的专家数。K2 模型 1 万亿的参数量对 AI 计算系统提出至少 1TB 的显存容量需求,384 个路由专家所带来的专家负载不均衡性对推理速度有很大影响。目前业界可公开访问的 K2 API 的输出速度一般低于 20 tokens / s,这样较低的性能对于编程或 Agent 类场景很不友好,会严重影响用户体验。Kimi K2 凭借其为智能体任务设计的架构和优秀的智能体验,展现出巨大的应用潜力,但提升推理速度和输出稳定性是其成为可信赖的生产力工具需要解决的核心挑战。
元脑企智一体机采用元脑服务器 NF5688G7 作为算力底座,其搭载 FP8 计算引擎,配备 1128GB HBM3e 高速显存,单台服务器即可支持 K2 万亿参数全量模型部署。NF5688G7 服务器具备 900GB/s 的 GPU P2P 带宽,为 Kimi K2 提供了专家间高速并行通信,最大化并行效率。该服务器可支持 3200Gbps 的 RDMA 扩展网络,为预填充-解码分离部署和大规模专家并行预留了充足的扩展空间。
浪潮信息已完成元脑企智一体机对 K2 的适配,支持 64K 上下文长度和多路用户实时并发访问。基于 SGLang 推理框架,通过减少 MoE 对齐块大小内核的小批量模式开销和 fused_moe 的内存消耗,并复用 deepGEMM 等高效算子,实现单用户并发下输出速度超过 70 tokens / s,25 用户并发时每用户输出速度超过 25 tokens / s。优化后的计算性能可保证用户在进行复杂的代码生成、长文本书写或 Agent 调用时,能够获得流畅、低延迟的交互体验。
SGLang 启动 K2 推理服务,用户交互时的解码速度
元脑企智一体机提供了元脑企智(EPAI)平台与 K2 大模型的无缝集成,为企业用户提供了一套软硬件协同优化、开箱即用的端到端大模型私有化部署解决方案。通过元脑企智平台,企业可利用低代码、可视化界面,便捷地进行数据准备、模型微调、知识检索(RAG)和智能体(Agent)构建。
元脑企智一体机已成功部署于金融、制造、能源、医疗等多个关键行业,帮助企业快速、安全、经济地构建专属大模型应用,加速产业智能化转型步伐。
浪潮信息是全球领先的 IT 基础设施产品、方案和服务提供商,通过发展新一代以系统为核心的计算架构,打造开放、多元、绿色的元脑智算产品和方案。浪潮信息致力于 AI 计算平台、资源平台和算法平台的研发创新,并通过元脑生态携手领先伙伴,加速人工智能的创新和应用落地。
本文链接:http://www.28at.com/showinfo-26-171786-0.html万亿参数!元脑企智一体机率先支持 Kimi K2 大模型
声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。