Google发布新世界模型Genie 2:大规模基础世界模型
为未来通用智能体生成无限多样化的培训环境
今天我们介绍 Genie 2,这是一个基础世界模型,能够生成各种可控制动作、可玩的 3D 环境,用于训练和评估具身代理。基于单个提示图像,人类或 AI 代理可以使用键盘和鼠标输入来玩它。游戏在人工智能 (AI) 研究领域发挥着重要作用。游戏的吸引力、独特的挑战组合和可衡量的进展使其成为安全测试和推进 AI 能力的理想环境。事实上,自 Google DeepMind 成立以来,游戏就一直非常重要。从我们早期与 Atari 游戏的合作,到[1]AlphaGo[2]和AlphaStar[3]等突破性成果,再到我们与游戏开发者合作研究通用智能体[4],游戏一直是我们研究的重心。然而,训练更通用的具身智能体的[5]传统瓶颈在于缺乏足够丰富和多样化的训练环境。
正如我们所展示的,Genie 2 可以让未来的智能体在无限的新世界中接受训练和评估。我们的研究还为原型互动体验的全新创意工作流程铺平了道路。
基础世界模型的新兴能力
到目前为止,世界模型在很大程度上局限于建模狭窄的领域[6]。在Genie 1[7]中,我们引入了一种生成各种 2D 世界的方法。今天我们介绍 Genie 2,它代表了通用性方面的重大飞跃。Genie 2 可以生成种类繁多的丰富 3D 世界。
Genie 2 是一个世界模型,这意味着它可以模拟虚拟世界,包括采取任何动作(例如跳跃、游泳等)的后果。它是在大规模视频数据集上进行训练的,并且与其他生成模型一样,展示了各种大规模的新兴能力,例如对象交互、复杂的角色动画、物理以及建模并预测其他代理行为的能力。
以下是人们与 Genie 2 互动的示例视频。对于每个示例,模型都会使用Imagen 3[8](GDM 最先进的文本转图像模型)生成的单个图像进行提示。这意味着任何人都可以用文字描述他们想要的世界,选择他们最喜欢的想法,然后进入并与这个新创建的世界互动(或让 AI 代理在其中接受训练或评估)。在每个步骤中,一个人或代理提供键盘和鼠标操作,然后 Genie 2 模拟下一个观察结果。Genie 2 可以生成长达一分钟的一致世界,大多数示例持续 10-20 秒。
- 操作控件
Genie 2 可以智能地响应键盘上的按键操作,识别角色并正确移动。例如,我们的模型必须弄清楚箭头键应该移动机器人而不是树木或云朵。
- 生成反事实
我们可以从同一起始帧生成不同的轨迹,这意味着可以为训练代理模拟反事实体验。在每一行中,每个视频都从同一帧开始,但人类玩家采取的动作不同。
- 长远记忆
Genie 2 能够记住视野中不再存在的世界部分,然后在它们再次可见时准确地呈现它们。
- 使用新生成的内容生成长视频
Genie 2 可以动态生成新的合理内容,并在长达一分钟的时间内维持一致的世界。
- 多样化环境
Genie 2 可以创建不同的视角,例如第一人称视角、等距视图或第三人称驾驶视频。
- 3D 结构
Genie 2 学会了创建复杂的 3D 视觉场景。
- 对象可供性和交互
Genie 2 模拟了各种物体的相互作用,例如爆破气球、打开门和射击炸药桶。
- 角色动画
Genie 2 学习了如何为不同类型的角色制作动画来执行不同的活动。
- NPC
Genie 2 模拟其他代理,甚至与它们进行复杂的交互。
- 物理
Genie 2 模拟水效果。
- 烟雾
Genie 2 模型烟雾效果。
- 重力
Genie 2 模拟重力。
- 灯光
Genie 2 模型点和定向照明。
- 反射
Genie 2 模拟反射、绽放和彩色灯光。
- 使用真实世界图像进行播放
Genie 2 还可以通过现实世界的图像进行提示,我们可以发现它可以模拟风中摇曳的草或河中流动的水。
扩散世界模型
Genie 2 是一个自回归潜在扩散模型[9],在大型视频数据集上进行训练。经过自动编码器[10]后,视频中的潜在帧被传递到大型变压器[11]动力学模型,该模型使用与大型语言模型类似的因果掩码进行训练。
在推理时,Genie 2 可以以自回归方式进行采样,逐帧获取单个动作和过去的潜在帧。我们使用无分类器指导[12]来提高动作可控性。
本博文中的示例由未提炼的基础模型生成,以展示其可能性。我们可以实时播放提炼版本,但输出质量会有所降低。
参考资料
[1]
早期与 Atari 游戏的合作,到:/
[2]
AlphaGo:/research/breakthroughs/alphago/
[3]
AlphaStar:/discover/blog/alphastar-grandmaster-level-in-starcraft-ii-using-multi-agent-reinforcement-learning/
[4]
通用智能体:/discover/blog/sima-generalist-ai-agent-for-3d-virtual-environments/
[5]
更通用的具身智能体的:.02462
[6]
建模狭窄的领域:/
[7]
Genie 1:/research/publications/60474/
[8]
Imagen 3:/technologies/imagen-3/
[9]
潜在扩散模型:.html
[10]
自动编码器:.6114
[11]
变压器:
[12]
无分类器指导:.12598
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2024-12-05,如有侵权请联系 cloudcommunity@tencent 删除google代理基础模型视频发布者:admin,转转请注明出处:http://www.yc00.com/web/1748222352a4750131.html
评论列表(0条)