Google发布新世界模型Genie 2：大规模基础世界模型|江阴雨辰互联

Google发布新世界模型Genie 2：大规模基础世界模型

为未来通用智能体生成无限多样化的培训环境

今天我们介绍 Genie 2，这是一个基础世界模型，能够生成各种可控制动作、可玩的 3D 环境，用于训练和评估具身代理。基于单个提示图像，人类或 AI 代理可以使用键盘和鼠标输入来玩它。游戏在人工智能 (AI) 研究领域发挥着重要作用。游戏的吸引力、独特的挑战组合和可衡量的进展使其成为安全测试和推进 AI 能力的理想环境。事实上，自 Google DeepMind 成立以来，游戏就一直非常重要。从我们早期与 Atari 游戏的合作，到[1]AlphaGo[2]和AlphaStar[3]等突破性成果，再到我们与游戏开发者合作研究通用智能体[4]，游戏一直是我们研究的重心。然而，训练更通用的具身智能体的[5]传统瓶颈在于缺乏足够丰富和多样化的训练环境。

正如我们所展示的，Genie 2 可以让未来的智能体在无限的新世界中接受训练和评估。我们的研究还为原型互动体验的全新创意工作流程铺平了道路。

基础世界模型的新兴能力

到目前为止，世界模型在很大程度上局限于建模狭窄的领域[6]。在Genie 1[7]中，我们引入了一种生成各种 2D 世界的方法。今天我们介绍 Genie 2，它代表了通用性方面的重大飞跃。Genie 2 可以生成种类繁多的丰富 3D 世界。

Genie 2 是一个世界模型，这意味着它可以模拟虚拟世界，包括采取任何动作（例如跳跃、游泳等）的后果。它是在大规模视频数据集上进行训练的，并且与其他生成模型一样，展示了各种大规模的新兴能力，例如对象交互、复杂的角色动画、物理以及建模并预测其他代理行为的能力。

以下是人们与 Genie 2 互动的示例视频。对于每个示例，模型都会使用Imagen 3[8]（GDM 最先进的文本转图像模型）生成的单个图像进行提示。这意味着任何人都可以用文字描述他们想要的世界，选择他们最喜欢的想法，然后进入并与这个新创建的世界互动（或让 AI 代理在其中接受训练或评估）。在每个步骤中，一个人或代理提供键盘和鼠标操作，然后 Genie 2 模拟下一个观察结果。Genie 2 可以生成长达一分钟的一致世界，大多数示例持续 10-20 秒。

操作控件

Genie 2 可以智能地响应键盘上的按键操作，识别角色并正确移动。例如，我们的模型必须弄清楚箭头键应该移动机器人而不是树木或云朵。

生成反事实

我们可以从同一起始帧生成不同的轨迹，这意味着可以为训练代理模拟反事实体验。在每一行中，每个视频都从同一帧开始，但人类玩家采取的动作不同。

长远记忆

Genie 2 能够记住视野中不再存在的世界部分，然后在它们再次可见时准确地呈现它们。

使用新生成的内容生成长视频

Genie 2 可以动态生成新的合理内容，并在长达一分钟的时间内维持一致的世界。

多样化环境

Genie 2 可以创建不同的视角，例如第一人称视角、等距视图或第三人称驾驶视频。

3D 结构

Genie 2 学会了创建复杂的 3D 视觉场景。

对象可供性和交互

Genie 2 模拟了各种物体的相互作用，例如爆破气球、打开门和射击炸药桶。

角色动画

Genie 2 学习了如何为不同类型的角色制作动画来执行不同的活动。

Genie 2 模拟其他代理，甚至与它们进行复杂的交互。

物理

Genie 2 模拟水效果。

烟雾

Genie 2 模型烟雾效果。

重力

Genie 2 模拟重力。

灯光

Genie 2 模型点和定向照明。

反射

Genie 2 模拟反射、绽放和彩色灯光。

使用真实世界图像进行播放

Genie 2 还可以通过现实世界的图像进行提示，我们可以发现它可以模拟风中摇曳的草或河中流动的水。

扩散世界模型

Genie 2 是一个自回归潜在扩散模型[9]，在大型视频数据集上进行训练。经过自动编码器[10]后，视频中的潜在帧被传递到大型变压器[11]动力学模型，该模型使用与大型语言模型类似的因果掩码进行训练。

在推理时，Genie 2 可以以自回归方式进行采样，逐帧获取单个动作和过去的潜在帧。我们使用无分类器指导[12]来提高动作可控性。

本博文中的示例由未提炼的基础模型生成，以展示其可能性。我们可以实时播放提炼版本，但输出质量会有所降低。

参考资料

[1]

早期与 Atari 游戏的合作，到:/

[2]

AlphaGo:/research/breakthroughs/alphago/

[3]

AlphaStar:/discover/blog/alphastar-grandmaster-level-in-starcraft-ii-using-multi-agent-reinforcement-learning/

[4]

通用智能体:/discover/blog/sima-generalist-ai-agent-for-3d-virtual-environments/

[5]

更通用的具身智能体的:.02462

[6]

建模狭窄的领域:/

[7]

Genie 1:/research/publications/60474/

[8]

Imagen 3:/technologies/imagen-3/

[9]

潜在扩散模型:.html

[10]

自动编码器:.6114

[11]

变压器:

[12]

无分类器指导:.12598

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。原始发表：2024-12-05，如有侵权请联系 cloudcommunity@tencent 删除google代理基础模型视频

发布者：admin，转转请注明出处：http://www.yc00.com/web/1748222352a4750131.html

Google发布新世界模型Genie 2：大规模基础世界模型