接力李飞飞 谷歌虚拟世界生成器上线 将和马斯克联手做AI游戏?

图灵汇官网

科技前沿:谷歌推出Genie 2,提升虚拟场景生成水平

最近一段时间,随着李飞飞和谷歌DeepMind的动作,大模型受到越来越多的关注,大世界模型再次成为讨论热点。

此前,李飞飞的公司World Labs展示了用单张图片生成3D世界的创新技术。随后,谷歌DeepMind在12月4日推出了大型基础世界模型Genie 2。这个模型能通过单张图片或者文字描述生成真实的3D场景。

Genie 2的主要特点

Genie 2有多项显著功能:

首先,它能生成可交互的3D场景。谷歌提到,用户只要提供一张图片和文字描述,Genie 2就能创建一个可交互的3D场景,并以高清晰度显示。用户可以用鼠标和键盘操作,自由浏览大约1分钟,通常可以稳定运行10到20秒。

其次,Genie 2具有空间记忆功能。生成的内容在用户移动时会保持虚拟环境的稳定性。即便某些区域暂时不在视线内,系统也会维持这些区域的稳定状态。World Labs也有类似功能,即使视线移开再回来,生成的3D场景不会发生变化。

最后,Genie 2具备扩展画面的能力。它能够实时创造符合逻辑的新场景内容,并在一分钟内保持整个世界的连贯性。这显示了Genie 2出色的预测3D场景能力。World Labs也可以利用部分图片生成完整的3D场景。

技术对比

虽然这两个AI工具功能相近,但核心技术有所不同。据机器之心报道,普林斯顿AI创新中心的王梦迪教授认为,李飞飞的World Labs在构建3D环境时更专注于物理世界的理解。它从图片入手,计算图片中不同物体的深度和相对位置,从而生成更加真实的3D环境,而不仅仅是一个互动视频。

另一个小差别在于应用范围。World Labs主要用于电影制作,而谷歌则聚焦于游戏开发。Genie 2发布后,DeepMind首席执行官Demis Hassabis邀请马斯克一起开发AI游戏,马斯克表示同意。另外,作为YouTube的母公司,谷歌还拥有大量的游戏视频数据资源。

未来展望

Genie 2这样的大世界模型可以快速构建多样化且可操控的3D环境,这些环境可用于训练和测试具身智能体,为相关研究提供丰富的虚拟训练数据。谷歌的研究人员Jack Parker-Holder展示了几个例子,证明了Genie 2处理复杂场景的强大能力。

这些技术的进步预示着未来AI在游戏和虚拟现实领域的广阔应用前景。

本文来源: 互联网 文章作者: Z科技
    下一篇

导读:据ZP独家报道,前OpenAI研究与安全副总裁Lilian Weng已加盟Fellows Fund,担任新的Distinguished Fellow。Fellows Fund是一支总部位于硅谷、