散户组团挑战算力霸权，40B 模型 + 20 万亿 token 刷新世界纪录-28资讯网—

散户组团挑战算力霸权，40B 模型 + 20 万亿 token 刷新世界纪录

2025-05-28 09:21:49 AI 200观看

摘要互联网上最大规模的预训练来了！Nous Research 宣布正式推出 Psyche 网络（Psyche Network），通过去中心化方式革新人工智能（AI）训练。Psyche 网络利用区块链技术，汇聚全球计算资源，成功启动了 40B 参数大语言模型 Consi

互联网上最大规模的预训练来了！

Nous Research 宣布正式推出 Psyche 网络（Psyche Network），通过去中心化方式革新人工智能（AI）训练。

Psyche 网络利用区块链技术，汇聚全球计算资源，成功启动了 40B 参数大语言模型 Consilience 的预训练任务，总计 20 万亿 token，创下了迄今为止互联网上最大规模的预训练纪录。

大语言模型 Consilience 采用 DeepSeek V3 的多头潜在注意力（MLA）架构，相较于 Llama 使用的 GQA 架构更具表达力，同时通过优化 QKV 投影矩阵减少计算开销。

▲三种注意力的对比

Psyche 利用全球闲置的计算资源（如 4090、A100 和 H100 等消费级 GPU），大幅降低训练成本。

通过并行实验，Psyche 鼓励开源社区提出新的模型架构和训练方法，未来可能催生更多创新。

▲Psyche 网络技术原理图，核心在于 DisTrO 优化器与 Solana 区块链

过去，人们总觉得「AI 模型的去中心化训练」不过是一种幻想，尤其在那些超越了爱好者规模的语言模型面前更是如此。

但几项关键技术突破 —— 尤其是并行化和强化学习 —— 正在逐渐打破这种局限，让除了 OpenAI、Anthropic 这类大公司之外的小型团队也开始进入这个赛道。

现在看来，聪明的算法可以弥补基础设施的不足，而像 Nous Research 这样的去中心化参与者正希望抓住这个机会。

砸碎算力墙

近年来，AI 模型的训练逐渐被大型科技公司垄断。

训练一个前沿模型需要数千个高性能 GPU 和超高带宽的集群，这使得普通研究者或小型团队几乎无法参与。

这种集中化趋势不仅限制了创新，还可能导致少数科技去投垄断甚至控制 AI 模型。

集中式 AI，可能会少数科技巨头「比你更了解你自己」。

Hermes 系列中规模最大的模型 ——Hermes 3 405B，是在基础的 Llama 3.1 模型上进行微调完成的。

整个训练过程动用了 128 块 H100 GPU，耗时约 16 小时（总计约 2,086GPU 小时）。

从成本上看其实并不离谱 —— 目前租用 8 块 H100 的计算节点每小时大约在 16 到 24 美元之间，因此一次完整训练的开销大约在 5,000 美元左右。

作为 Nous Research Hermes 系列的最新迭代，Hermes 3 405B 自 Llama-3.1 405B 的全参数微调模型，

但如果我们想更进一步，想得更大呢？

毕竟，Hermes 目前还是依赖 Llama 作为基础模型。

如果我们不再依赖已有的模型，而是从零开始构建自己的基础模型，那我们就需要更庞大的“船”了。

要以更大规模、低成本地实现类似的训练成果，确实面临不少挑战，尤其是当训练从集中化的 GPU 集群转向基于互联网的去中心化网络时。

Nous Research 提出了 Psyche 网络的解决方案：通过去中心化的方式，让全球的计算资源参与 AI 模型训练，降低进入门槛，推动 AI 发展的民主化。

Nous Research 的 Psyche 网络成功实现了去中心化的 AI 训练，开创了一个全新的模式。

Psyche 不仅降低了 AI 开发的门槛，还推动了全球协作和创新。

Consilience 模型的预训练只是起点，未来 Psyche 网络有望成为 AI 民主化的重要基石，为开源社区和小型团队提供与科技巨头抗衡的机会。

用 DisTrO 解决带宽瓶颈

在去中心化训练中，网络带宽一直是最令人担忧的问题之一。

在传统的数据中心里，GPU 之间通过极高带宽的连接（如 NVLink 或 InfiniBand）相连，带宽可达每秒几百 Gb（千兆位）。

而相比之下，互联网上的志愿者节点，往往只有几十甚至几百 Mb（兆位）每秒的带宽。

质疑者认为，这种高达 100 倍甚至 1,000 倍的带宽差距，会让跨互联网的 AI 训练变得无比缓慢、几乎不可能。

毕竟，传统的训练方式需要 GPU 之间持续地交换更新信息，而如果试图用普通家用网络来完成这些通信，很可能会陷入「灾难级」的训练体验。

在此前对 DeMo（Decoupled Momentum Optimization）的研究基础上，Nous 推出的 DisTrO 技术，能够让所有训练节点保持高度同步，同时将所需带宽降低 1,000 到 10,000 倍。

2024 年 12 月，Nous 与多位合作伙伴一起，在封闭测试网中，训练了一个 150 亿参数的基础模型，并成功验证了多项理论设想：

首次将 DisTrO 优化器系列大规模应用于训练任务

验证了节点中途掉线和新增节点时的容错能力

证明了增加训练节点确实能提升整体训练速度

这次实验标志着分布式、去中心化训练迈出了从理论走向现实的关键一步。

区块链 + AI

在硅谷的一些圈子里，「加密」这个词几乎成了贬义词，而 Nous 一直努力保持与 AI 开发者之间的开放交流桥梁不被切断。

也正因如此，他们这次将 Psyche 搭建在区块链上，是一个值得关注的重要转变。

Psyche 将成为 Nous 用于预训练、微调和部署下一代模型的平台。

通过将技术栈迁移到 Solana 区块链，Nous 希望释放区块链的以下三大优势：

无需许可：任何人都可以贡献计算资源

弹性与高可用性：不再依赖中心化基础设施

激励机制：协调并奖励为网络作出贡献的参与者

将这一协议向整个市场开放，意味着任何人都能拥有其中的一部分。而其潜在的扩展性之大，显然已经让不少极客兴奋不已。

计划概览

Nous 的初期目标是先上线一个封闭测试网（Phase 0），验证是否能在 Solana 上运行一个更大规模、分布式、具备容错能力的 DisTrO 系统。后续阶段会逐步引入更高级的功能。

在 Phase 0 阶段，贡献者可以携带自己的 GPU 加入进来（明确提到支持 4090、A100 和 H100 等型号），并开始获得奖励。此阶段会对参与者进行筛选，以防止恶意行为者加入。

一旦系统稳定运行，权限将逐步开放，允许不同类型的计算资源（无论是专业的还是消费级的）自由接入网络，协助训练 Llama、Diffusion 等不同类型的模型架构。

强化学习后训练阶段

强化学习（Reinforcement Learning，RL）不依赖于预先准备好的数据集，而是通过模型与环境直接互动来学习。

每个节点如果做出有助于模型进化的行为，就会获得正反馈，反之则获得负反馈。

由于这些节点可以异步运行，分布式训练在强化学习框架下反而运行良好。

每个节点可以独立行动，收集经验，并定期与其他节点分享进展。

这极大缓解了传统训练中常见的「同步难题」，特别是在硬件能力和网络延迟差异大的情况下。

通过 RL，Psyche 上的预训练模型可以进一步学会推理能力和领域知识。

而每个 Psyche 节点在训练过程中的表现都将影响它的奖励：计算能力更强或使用了更先进训练方法的节点，可能会获得更多代币激励。

区块链：回归初心

在常常被斥为「过度炒作又频频令人失望」的区块链生态中，能看到真正的创新成果，确实令人欣慰 —— 简直让人「冷漠的灵魂也重新燃起了热情」。

这一切，真的令人感到振奋。

Nous 并不是一开始就拥抱区块链技术的，相反，他们几乎是被「拖着、踢着、喊着」走上了这条路 ——

但原因很简单：区块链确实是解决他们问题最合适的工具。

他们需要一种方式，不论对方来自哪里，都能吸引计算资源与人才并进行公平支付；区块链，在这一点上表现得无比出色。

他们需要一种手段，能够协调并扩展大规模训练任务；而协调与扩展，正是区块链技术的「第二天性」。

他们还需要一种不受停电、封禁、宕机等影响的托管机制，能让项目「打不死」、无法被关闭；在这方面，区块链（这次不再是讽刺）也的确提供了最可靠的保障。

而最值得欣慰的是：这一次，人们选择区块链，不是出于投机炒作，而是出于对实际问题的认真思考与真实需求的回应。

如果 Psyche 成功了，它不仅将证明去中心化训练是切实可行的，更是回归初心：为取代的集中化计算，提供了强有力的工具。

参考资料：

https://x.com/NousResearch/status/1922744483571171605

https://nousresearch.com/nous-psyche/

https://x.com/563defi/status/1909976170990313594

本文来自微信公众号：新智元（ID：AI_era），原标题《刷新世界记录！40B 模型 + 20 万亿 token，散户组团挑战算力霸权》

本文链接：http://www.28at.com/showinfo-45-13220-0.html散户组团挑战算力霸权，40B 模型 + 20 万亿 token 刷新世界纪录

声明：本网页内容旨在传播知识，不代表本站观点，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

显示全文

全部频道

最新热点