谷歌 DeepMind 闭关修炼《我的世界》:自学成才挖钻石,成果登 Nature
2025-04-05 09:27:11 AI 25观看
摘要 AI 又进化了,在没有任何人类数据的参与下,自己玩《我的世界》还能找到钻石!在刚刚登上 Nature 的论文中,谷歌 DeepMind 的智能体通过纯・自我学习,顺利完成了收集钻石的任务。论文链接:https://www.nature.com/arti

AI 又进化了,在没有任何人类数据的参与下,自己玩《我的世界》还能找到钻石!DXA28资讯网——每日最新资讯28at.com

在刚刚登上 Nature 的论文中,谷歌 DeepMind 的智能体通过纯・自我学习,顺利完成了收集钻石的任务。DXA28资讯网——每日最新资讯28at.com

DXA28资讯网——每日最新资讯28at.com

论文链接:https://www.nature.com/articles/s41586-025-08744-2DXA28资讯网——每日最新资讯28at.com

对此,DeepMind 的计算机科学家 Danijar Hafner 表示:「Dreamer 是一个重要的里程碑,标志着 AI 又朝着通用人工智能前进了一大步。」DXA28资讯网——每日最新资讯28at.com

又是 AI 和《我的世界》,为何这次就成了迈向 AGI 的一大步

用 AI 来挑战《我的世界》早已是 AI 界「喜闻乐见」的项目了。DXA28资讯网——每日最新资讯28at.com

作为世界上排名第一且月活超过 1 亿的游戏,《我的世界》可以说是涵盖了几乎所有年龄段的人群。DXA28资讯网——每日最新资讯28at.com

早在两三年前,包括 OpenAI 在内的各个模型都有挑战《我的世界》的尝试。DXA28资讯网——每日最新资讯28at.com

DXA28资讯网——每日最新资讯28at.com

更早在 2019 年,研究人员就认为《我的世界》的开放式游戏环境可能非常适合 AI 研究。DXA28资讯网——每日最新资讯28at.com

比如一个七岁的小孩在观看了 10 分钟演示视频后就能学会如何在游戏中找到稀有的钻石,而当年的 AI 还远远做不到这一点。DXA28资讯网——每日最新资讯28at.com

DXA28资讯网——每日最新资讯28at.com

AI 从《我的世界》中的一个随机位置开始,必须完成某些任务来找到钻石DXA28资讯网——每日最新资讯28at.com

为何这次 DeepMind 就敢说是「通向 AGI 的一大步」呢?DXA28资讯网——每日最新资讯28at.com

这次的任务 —— 在游戏内寻找钻石 —— 听起来容易,但其实非常困难,「高玩」们也要花 20-30 分钟才能找到一个钻石。DXA28资讯网——每日最新资讯28at.com

DXA28资讯网——每日最新资讯28at.com

给不熟悉游戏的朋友解释下这个任务为什么这么困难:DXA28资讯网——每日最新资讯28at.com

1. 每一次的游戏场景都是随机世界,包含各种地形的虚拟 3D 世界,包括森林、山脉、沙漠和沼泽,这让 AI 无法只记住一种特定策略来作弊;DXA28资讯网——每日最新资讯28at.com

2. 想要获得钻石需要经过一系列复杂的前置流程,并不是随机在地图寻找,比如你需要:DXA28资讯网——每日最新资讯28at.com

先找到树木DXA28资讯网——每日最新资讯28at.com

然后将树木分解为木材,木材也仅仅是用来制作一个工作台DXA28资讯网——每日最新资讯28at.com

有了工作台再加上更多的木材你才可以制作一个木头镐头DXA28资讯网——每日最新资讯28at.com

然后才能开始挖掘以寻找钻石DXA28资讯网——每日最新资讯28at.com

......DXA28资讯网——每日最新资讯28at.com

钻石恒久远,AI 不疲倦

AI 研究人员专注于在《我的世界》中寻找钻石,Hafner 说因为这需要一系列复杂的步骤,是一个很长的里程碑链条,因此它需要非常深入的探索。DXA28资讯网——每日最新资讯28at.com

DXA28资讯网——每日最新资讯28at.com

▲DeepMind 的 Dreamer AI 在《我的世界》中进行了多次游戏学习如何收集钻石

之前的尝试让 AI 系统收集钻石依赖于使用人类游戏的视频或研究人员引导系统完成各个步骤。DXA28资讯网——每日最新资讯28at.com

相比之下,Dreamer 通过强化学习的试错技术自行探索游戏的所有内容 —— 它识别出可能带来奖励的动作,重复这些动作并放弃其他动作。DXA28资讯网——每日最新资讯28at.com

强化学习是一些重大 AI 进展的基础,但之前的程序都是专家型的 —— 它们无法从零开始在新领域应用知识。DXA28资讯网——每日最新资讯28at.com

成功的关键是构建「世界模型」

Dreamer 成功的关键在于它构建了周围环境的模型,并使用这个世界模型来「想象」未来的情景并指导决策。DXA28资讯网——每日最新资讯28at.com

DXA28资讯网——每日最新资讯28at.com

就像我们自己的抽象思维一样,世界模型并不是周围环境的精确复制品。DXA28资讯网——每日最新资讯28at.com

世界模型允许 Dreamer 尝试不同的事情,「世界模型真正赋予了人工智能系统想象未来的能力」Hafner 说。DXA28资讯网——每日最新资讯28at.com

这种能力还可能有助于创造能够在现实世界中学习互动的机器人 —— 在现实世界中,试错的成本要比在视频游戏中高得多。DXA28资讯网——每日最新资讯28at.com

研究团队一开始并不是奔着「钻石测试」去研究的,测试 Dreamer 在钻石挑战上的表现是一个事后的想法。DXA28资讯网——每日最新资讯28at.com

「在构建整个算法时并没有考虑到这一点」,Hafner 说,但团队意识到,这是测试其算法是否能够开箱即用、处理不熟悉任务的理想方式。DXA28资讯网——每日最新资讯28at.com

在《我的世界》中,团队使用了一种协议,每当 Dreamer 完成钻石收集过程中涉及的 12 个逐步步骤之一时,就会获得一个「+1」的奖励 —— 这些步骤包括制作木板和熔炉、开采铁矿并锻造铁镐。DXA28资讯网——每日最新资讯28at.com

这些中间奖励促使 Dreamer 选择了更有可能获得钻石的动作。团队每 30 分钟重置一次游戏,这样 Dreamer 就不会适应某个特定的配置 —— 而是学会了获得更多奖励的一般规则。DXA28资讯网——每日最新资讯28at.com

在这种设置下,Dreamer 需要连续玩大约九天才能找到至少一颗钻石。DXA28资讯网——每日最新资讯28at.com

而高手玩家找到一颗钻石需要 20 到 30 分钟,新手则需要更长的时间。DXA28资讯网——每日最新资讯28at.com

在 Minecraft 中进行钻石挑战

游戏中的每一次都设定在一个独特的随机生成且无限的三维世界中。DXA28资讯网——每日最新资讯28at.com

每一次持续到玩家死亡或达到 36,000 步(相当于 30 分钟),根据 MineRL 竞赛提供的动作形成了一个分类动作空间,其中包括抽象的制作动作。DXA28资讯网——每日最新资讯28at.com

DXA28资讯网——每日最新资讯28at.com

据 DeepMind 宣称,Dreamer 是第一个在不使用人类数据的情况下从零开始在《我的世界》中收集钻石的算法。DXA28资讯网——每日最新资讯28at.com

所有的 Dreamer 智能体都在一亿次步骤内发现了钻石。所有物品的成功率显示在图右扩展数据中。DXA28资讯网——每日最新资讯28at.com

尽管其他几个强大的算法(例子中的 PPO、Rainbow 和 IMPALA)进展到了诸如铁镐等高级物品,但没有一个发现钻石。DXA28资讯网——每日最新资讯28at.com

Dreamer 算法核心原理

Dreamer 算法的核心是学习一个世界模型。DXA28资讯网——每日最新资讯28at.com

这就像是智能体的大脑,让智能体具备丰富的感知能力,通过想象未来场景来规划行动。DXA28资讯网——每日最新资讯28at.com

算法由三个关键的神经网络组成:世界模型、评论家网络和行动者网络。DXA28资讯网——每日最新资讯28at.com

世界模型通过自动编码学习感官输入的表示,并通过预测潜在动作的未来表示和奖励来实现规划。DXA28资讯网——每日最新资讯28at.com

将世界模型实现为递归状态空间模型,如图所示。DXA28资讯网——每日最新资讯28at.com

DXA28资讯网——每日最新资讯28at.com

评论家网络则对世界模型预测的每个结果进行价值判断,评估这个结果对实现目标的帮助有多大。DXA28资讯网——每日最新资讯28at.com

行动者网络根据评论家的判断,选择能达到最佳结果的行动。DXA28资讯网——每日最新资讯28at.com

这三个网络相互协作,在智能体与环境交互的过程中,通过重放经验同时进行训练。DXA28资讯网——每日最新资讯28at.com

在训练过程中,世界模型的学习至关重要。它要学习从感官输入中提取有用信息,还要预测未来的状态和奖励。DXA28资讯网——每日最新资讯28at.com

为实现这一目标,世界模型需要最小化预测损失、动态损失和表示损失。DXA28资讯网——每日最新资讯28at.com

DXA28资讯网——每日最新资讯28at.com

预测损失用于训练解码器和奖励预测器,动态损失训练序列模型预测下一个表示,表示损失则让表示更具可预测性。DXA28资讯网——每日最新资讯28at.com

图中可视化了世界模型的长期视频预测。DXA28资讯网——每日最新资讯28at.com

DXA28资讯网——每日最新资讯28at.com

实验结果

DeepMind 团队在 8 个领域的 150 多个任务中评估 Dreamer 算法的通用性,包括连续和离散动作、视觉和低维输入、密集和稀疏奖励、不同的奖励尺度、二维和三维世界以及程序生成。DXA28资讯网——每日最新资讯28at.com

DXA28资讯网——每日最新资讯28at.com

图中展示了基准测试结果,Dreamer 在所有测试中均有更好的表现。DXA28资讯网——每日最新资讯28at.com

DXA28资讯网——每日最新资讯28at.com

在 Atari 基准测试中,它能在使用少量计算资源的情况下,超越 MuZero 算法,也优于 Rainbow 和 IQN 算法。DXA28资讯网——每日最新资讯28at.com

在 ProcGen 基准测试中,面对随机生成的关卡和视觉干扰,Dreamer 算法在 5000 万帧的预算内,超过了经过调优的 PPG 和 Rainbow 算法。DXA28资讯网——每日最新资讯28at.com

在 DMLab 基准测试里,它在 1 亿帧训练后,性能超过了 IMPALA 和 R2D2 + 智能体,数据效率大幅提升。DXA28资讯网——每日最新资讯28at.com

在 Atari100k 基准测试中,尽管训练预算仅为 40 万帧,Dreamer 算法依然能超越其他方法。DXA28资讯网——每日最新资讯28at.com

在 BSuite 基准测试中,它同样表现出色,在尺度稳健性方面有很大改进。DXA28资讯网——每日最新资讯28at.com

研究人员进行了消融实验,结果表明,所有的稳健性技术都有助于提高算法性能。DXA28资讯网——每日最新资讯28at.com

DXA28资讯网——每日最新资讯28at.com

研究人员还对 Dreamer 算法的缩放属性进行了研究。DXA28资讯网——每日最新资讯28at.com

他们训练了不同规模的模型,参数从 12M 到 4M。结果发现,扩大模型规模不仅能提高任务性能,还能减少数据需求。DXA28资讯网——每日最新资讯28at.com

更多的梯度步数也能减少学习成功行为所需的交互次数。这表明 Dreamer 算法在计算资源增加时,能够稳健地提升性能,为实际应用提供了更灵活的选择。DXA28资讯网——每日最新资讯28at.com

这篇论文是关于训练一个单一算法,期望其能在多样化的强化学习任务中表现出色。DXA28资讯网——每日最新资讯28at.com

在《我的游戏》中寻找钻石也许仅仅通向 AGI 之路的第一关。DXA28资讯网——每日最新资讯28at.com

AI 的下一个更大目标是《我的世界》玩家面临的终极挑战:击杀末影龙,这个虚拟世界中最可怕的生物。DXA28资讯网——每日最新资讯28at.com

DXA28资讯网——每日最新资讯28at.com

参考资料:DXA28资讯网——每日最新资讯28at.com

https://www.nature.com/articles/d41586-025-01019-w#ref-CR1DXA28资讯网——每日最新资讯28at.com

https://www.nature.com/articles/s41586-025-08744-2DXA28资讯网——每日最新资讯28at.com

https://x.com/danijarh/status/1907511182598222095DXA28资讯网——每日最新资讯28at.com

本文来自微信公众号:新智元(ID:AI_era),原标题《DeepMind 闭关修炼「我的世界」,自学成才挖钻登 Nature!人类玩家瑟瑟发抖》DXA28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-11930-0.html谷歌 DeepMind 闭关修炼《我的世界》:自学成才挖钻石,成果登 Nature

声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

显示全文

上一篇:百度飞桨框架 3.0 正式版发布,五大特性专为大模型设计

下一篇:谷歌 AI 笔记应用 NotebookLM 新增“发现资料”功能,可自动检索相关网络资源

最新热点