我们离虚拟世界还远吗？谷歌推出人工智能模型 “Genie”–通过单张图像创建可玩的虚拟世界

谷歌研究人员发布了一个新的人工智能模型，它可以将文字提示、草图或想法转化为一个可以互动和游戏的虚拟世界。

这个虚拟世界模型被命名为 “精灵”（Genie），它是根据游戏和其他网上视频训练出来的，目前只是一个研究预览版。这些游戏更像是 2D 平台游戏，而不是完整的 VR 游戏。

虽然这与《星际迷航》中的那种真正的 “全息甲板”（holodeck）还有一定距离，但它确实表明，有朝一日走进一个房间，只需几句话，就能创造出一个完全互动的冒险世界。

Google Genie 是什么？
在人工智能领域，人们常说 “打开潘多拉魔盒 “或 “让精灵从神灯里出来”，以描述只需付出相对较少的努力就能创造内容的现实。现实情况是，与人类花费数年时间学习一项技能一样，人工智能模型也需要大量的训练。

你不能只是擦擦灯，就希望精灵会出来，首先你必须在灯里装满知识和能力。就精灵而言，它来自 “大量公开互联网视频数据集”，以及工程师们为模型创建代码和权重所付出的大量努力。

谷歌 DeepMind Genie 团队负责人蒂姆-罗克塔谢尔（Tim Rocktäschel）在 X 上写道，团队重点关注规模问题，使用的数据集由超过 20 万小时的 2D 平台游戏视频组成。

它是在无监督和无标签视频的情况下进行训练的。这使它能够学习各种角色的动作、控制和行动，并以一致的方式进行学习。因此，”我们的模型可以将任何图像转换成可玩的 2D 世界，”Rocktäschel 解释说。

这到底是什么意思？

市场上有许多工具可以将平面设计师设计的网站或应用程序模型转化为代码。

虽然这并不总是最好的代码，但它可以创建一个可以使用的功能原型。人工智能工具也可以根据文本提示制作网站。

有了 Genie，你基本上可以给它一张纸上的草图、一幅完美的数字艺术作品，甚至是人工智能生成的二维世界的描述，然后 Genie 就会完成剩下的工作。

我非常兴奋地向大家展示 @GoogleDeepMind 的开放性团队所做的一切🚀。我们向您介绍 Genie 🧞，这是一个完全根据互联网视频训练出来的基础世界模型，它可以根据图像提示生成无穷无尽的可动作控制的 2D 世界。

它可以创建所有必要的代码、图像和其他资产，将您的草图制作成一个完全可玩的游戏（如下图），游戏中的世界是开放的，可以根据游戏进行调整。

创作者使用标记器将视频压缩为离散的标记。然后将其发送到动作模型，将两帧之间的转换编码为八个潜在动作之一。然后使用另一个模型来预测未来的帧。

将这一切整合在一起的解决方案与 OpenAI 在 Sora 上取得的突破是一样的–大量的数据和同样强大的计算能力。

Genie接下来会怎样？
Genie 还没有发布日期，作为一个研究项目，它是否会成为真正的产品还不得而知。也许有一天，你可以拿起最好的安卓手机，让助手为你制作一款躲避吸血鬼的游戏，但这还需要几年时间。

更重要的是其创建过程中开发的底层技术和新的内容生成方法，包括通往开放世界的无标签学习。

Rocktäschel 就 X，特别是它是一个 “世界模型 “的想法，对 Sora 提出了质疑。他说，虽然《精灵宝可梦》给人留下了深刻印象，在视觉上也令人惊叹，但 “世界模型需要’行动'”。他补充说：”Genie 是一个可动作控制的世界模型，但完全是在没有监督的情况下从视频中训练出来的”。

“Genie”的另一大突破是加深了对真实世界物理的理解，可用于训练机器人更有效地导航环境或完成训练中没有的任务。

发布者：ai发烧友，转转请注明出处：http://www.ouzou.cn/ai-jishu/4355.html