Google发布新世界模型Genie 2:大规模基础世界模型

为未来通用智能体生成无限多样化的培训环境今天我们介绍 Genie 2,这是一个基础世界模型,能够生成各种可控制动作、可玩的 3D 环境,用于训练和评估具身代理。基于单个提示图像,人类或 AI 代理可以使用键盘和鼠标输入来玩它。游戏在人工智能

Google发布新世界模型Genie 2:大规模基础世界模型

为未来通用智能体生成无限多样化的培训环境

今天我们介绍 Genie 2,这是一个基础世界模型,能够生成各种可控制动作、可玩的 3D 环境,用于训练和评估具身代理。基于单个提示图像,人类或 AI 代理可以使用键盘和鼠标输入来玩它。游戏在人工智能 (AI) 研究领域发挥着重要作用。游戏的吸引力、独特的挑战组合和可衡量的进展使其成为安全测试和推进 AI 能力的理想环境。事实上,自 Google DeepMind 成立以来,游戏就一直非常重要。从我们早期与 Atari 游戏的合作,到[1]AlphaGo[2]AlphaStar[3]等突破性成果,再到我们与游戏开发者合作研究通用智能体[4],游戏一直是我们研究的重心。然而,训练更通用的具身智能体的[5]传统瓶颈在于缺乏足够丰富和多样化的训练环境。

正如我们所展示的,Genie 2 可以让未来的智能体在无限的新世界中接受训练和评估。我们的研究还为原型互动体验的全新创意工作流程铺平了道路。

基础世界模型的新兴能力

到目前为止,世界模型在很大程度上局限于建模狭窄的领域[6]。在Genie 1[7]中,我们引入了一种生成各种 2D 世界的方法。今天我们介绍 Genie 2,它代表了通用性方面的重大飞跃。Genie 2 可以生成种类繁多的丰富 3D 世界。

Genie 2 是一个世界模型,这意味着它可以模拟虚拟世界,包括采取任何动作(例如跳跃、游泳等)的后果。它是在大规模视频数据集上进行训练的,并且与其他生成模型一样,展示了各种大规模的新兴能力,例如对象交互、复杂的角色动画、物理以及建模并预测其他代理行为的能力。

以下是人们与 Genie 2 互动的示例视频。对于每个示例,模型都会使用Imagen 3[8](GDM 最先进的文本转图像模型)生成的单个图像进行提示。这意味着任何人都可以用文字描述他们想要的世界,选择他们最喜欢的想法,然后进入并与这个新创建的世界互动(或让 AI 代理在其中接受训练或评估)。在每个步骤中,一个人或代理提供键盘和鼠标操作,然后 Genie 2 模拟下一个观察结果。Genie 2 可以生成长达一分钟的一致世界,大多数示例持续 10-20 秒。

  • 操作控件

Genie 2 可以智能地响应键盘上的按键操作,识别角色并正确移动。例如,我们的模型必须弄清楚箭头键应该移动机器人而不是树木或云朵。

  • 生成反事实

我们可以从同一起始帧生成不同的轨迹,这意味着可以为训练代理模拟反事实体验。在每一行中,每个视频都从同一帧开始,但人类玩家采取的动作不同。

  • 长远记忆

Genie 2 能够记住视野中不再存在的世界部分,然后在它们再次可见时准确地呈现它们。

  • 使用新生成的内容生成长视频

Genie 2 可以动态生成新的合理内容,并在长达一分钟的时间内维持一致的世界。

  • 多样化环境

Genie 2 可以创建不同的视角,例如第一人称视角、等距视图或第三人称驾驶视频。

  • 3D 结构

Genie 2 学会了创建复杂的 3D 视觉场景。

  • 对象可供性和交互

Genie 2 模拟了各种物体的相互作用,例如爆破气球、打开门和射击炸药桶。

  • 角色动画

Genie 2 学习了如何为不同类型的角色制作动画来执行不同的活动。

  • NPC

Genie 2 模拟其他代理,甚至与它们进行复杂的交互。

  • 物理

Genie 2 模拟水效果。

  • 烟雾

Genie 2 模型烟雾效果。

  • 重力

Genie 2 模拟重力。

  • 灯光

Genie 2 模型点和定向照明。

  • 反射

Genie 2 模拟反射、绽放和彩色灯光。

  • 使用真实世界图像进行播放

Genie 2 还可以通过现实世界的图像进行提示,我们可以发现它可以模拟风中摇曳的草或河中流动的水。

扩散世界模型

Genie 2 是一个自回归潜在扩散模型[9],在大型视频数据集上进行训练。经过自动编码器[10]后,视频中的潜在帧被传递到大型变压器[11]动力学模型,该模型使用与大型语言模型类似的因果掩码进行训练。

在推理时,Genie 2 可以以自回归方式进行采样,逐帧获取单个动作和过去的潜在帧。我们使用无分类器指导[12]来提高动作可控性。

本博文中的示例由未提炼的基础模型生成,以展示其可能性。我们可以实时播放提炼版本,但输出质量会有所降低。

参考资料

[1]

早期与 Atari 游戏的合作,到:/

[2]

AlphaGo:/research/breakthroughs/alphago/

[3]

AlphaStar:/discover/blog/alphastar-grandmaster-level-in-starcraft-ii-using-multi-agent-reinforcement-learning/

[4]

通用智能体:/discover/blog/sima-generalist-ai-agent-for-3d-virtual-environments/

[5]

更通用的具身智能体的:.02462

[6]

建模狭窄的领域:/

[7]

Genie 1:/research/publications/60474/

[8]

Imagen 3:/technologies/imagen-3/

[9]

潜在扩散模型:.html

[10]

自动编码器:.6114

[11]

变压器:

[12]

无分类器指导:.12598

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2024-12-05,如有侵权请联系 cloudcommunity@tencent 删除google代理基础模型视频

发布者:admin,转转请注明出处:http://www.yc00.com/web/1748222352a4750131.html

相关推荐

  • Google发布新世界模型Genie 2:大规模基础世界模型

    为未来通用智能体生成无限多样化的培训环境今天我们介绍 Genie 2,这是一个基础世界模型,能够生成各种可控制动作、可玩的 3D 环境,用于训练和评估具身代理。基于单个提示图像,人类或 AI 代理可以使用键盘和鼠标输入来玩它。游戏在人工智能

    1天前
    40

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信