我们离虚拟世界还远吗?谷歌推出人工智能模型 “Genie”–通过单张图像创建可玩的虚拟世界

谷歌研究人员发布了一个新的人工智能模型,它可以将文字提示、草图或想法转化为一个可以互动和游戏的虚拟世界。

这个虚拟世界模型被命名为 “精灵”(Genie),它是根据游戏和其他网上视频训练出来的,目前只是一个研究预览版。这些游戏更像是 2D 平台游戏,而不是完整的 VR 游戏。

我们离虚拟世界还远吗?谷歌推出人工智能模型 "Genie"--通过单张图像创建可玩的虚拟世界

虽然这与《星际迷航》中的那种真正的 “全息甲板”(holodeck)还有一定距离,但它确实表明,有朝一日走进一个房间,只需几句话,就能创造出一个完全互动的冒险世界。

Google Genie 是什么?
在人工智能领域,人们常说 “打开潘多拉魔盒 “或 “让精灵从神灯里出来”,以描述只需付出相对较少的努力就能创造内容的现实。现实情况是,与人类花费数年时间学习一项技能一样,人工智能模型也需要大量的训练。

你不能只是擦擦灯,就希望精灵会出来,首先你必须在灯里装满知识和能力。就精灵而言,它来自 “大量公开互联网视频数据集”,以及工程师们为模型创建代码和权重所付出的大量努力。

谷歌 DeepMind Genie 团队负责人蒂姆-罗克塔谢尔(Tim Rocktäschel)在 X 上写道,团队重点关注规模问题,使用的数据集由超过 20 万小时的 2D 平台游戏视频组成。

我们离虚拟世界还远吗?谷歌推出人工智能模型 "Genie"--通过单张图像创建可玩的虚拟世界

它是在无监督和无标签视频的情况下进行训练的。这使它能够学习各种角色的动作、控制和行动,并以一致的方式进行学习。因此,”我们的模型可以将任何图像转换成可玩的 2D 世界,”Rocktäschel 解释说。

这到底是什么意思?

市场上有许多工具可以将平面设计师设计的网站或应用程序模型转化为代码。

虽然这并不总是最好的代码,但它可以创建一个可以使用的功能原型。人工智能工具也可以根据文本提示制作网站。

有了 Genie,你基本上可以给它一张纸上的草图、一幅完美的数字艺术作品,甚至是人工智能生成的二维世界的描述,然后 Genie 就会完成剩下的工作。

我们离虚拟世界还远吗?谷歌推出人工智能模型 "Genie"--通过单张图像创建可玩的虚拟世界
我非常兴奋地向大家展示 @GoogleDeepMind 的开放性团队所做的一切🚀。我们向您介绍 Genie 🧞,这是一个完全根据互联网视频训练出来的基础世界模型,它可以根据图像提示生成无穷无尽的可动作控制的 2D 世界。

它可以创建所有必要的代码、图像和其他资产,将您的草图制作成一个完全可玩的游戏(如下图),游戏中的世界是开放的,可以根据游戏进行调整。

我们离虚拟世界还远吗?谷歌推出人工智能模型 "Genie"--通过单张图像创建可玩的虚拟世界

创作者使用标记器将视频压缩为离散的标记。然后将其发送到动作模型,将两帧之间的转换编码为八个潜在动作之一。然后使用另一个模型来预测未来的帧。

将这一切整合在一起的解决方案与 OpenAI 在 Sora 上取得的突破是一样的–大量的数据和同样强大的计算能力。

Genie接下来会怎样?
Genie 还没有发布日期,作为一个研究项目,它是否会成为真正的产品还不得而知。也许有一天,你可以拿起最好的安卓手机,让助手为你制作一款躲避吸血鬼的游戏,但这还需要几年时间。

更重要的是其创建过程中开发的底层技术和新的内容生成方法,包括通往开放世界的无标签学习。

Rocktäschel 就 X,特别是它是一个 “世界模型 “的想法,对 Sora 提出了质疑。他说,虽然《精灵宝可梦》给人留下了深刻印象,在视觉上也令人惊叹,但 “世界模型需要’行动'”。他补充说:”Genie 是一个可动作控制的世界模型,但完全是在没有监督的情况下从视频中训练出来的”。

“Genie”的另一大突破是加深了对真实世界物理的理解,可用于训练机器人更有效地导航环境或完成训练中没有的任务。

发布者:ai发烧友,转转请注明出处:http://www.ouzou.cn/ai-jishu/4355.html

(0)
ai发烧友的头像ai发烧友
上一篇 2024-02-26 上午12:01
下一篇 2024-02-27 下午11:34

相关推荐

  • CES2024爆款:手持式AI产品Rabbit R1狂销1万台

    渡鸦科技创始人吕骋带着自己的新公司Rabbit(原名Cyber Manufacture)和新产品Rabbit R1参展。这款手持AI硬件的售价为199美元,并在发布当天就引起了中外媒体的广泛关注,售价为199美元,在发售24小时内,便售出了10000台,远超它们自己的预期。 作为一款掌上AI设备,Rabbit R1采用了橙色方形的设计,重量仅为115g,非常…

    2024-01-14
    06
  • 如何使用 Google Gemini ?

    了解如何使用 Google Gemini 可以让您更深入地了解 AI 的工作原理。 Gemini 是 Google 对 ChatGPT 和 Microsoft Copilot 的回应,由早期实验性聊天机器人 Bard 更名而来。 它建立在 Gemini 系列人工智能模型之上,不断更新新功能,包括图像生成和运行代码的能力。 虽然 Gemini 最初是一个纯文本…

    2024-02-26
    00
  • CES2024新品:内置AI教练的Wim外骨骼可穿戴设备

    今年CES上,韩国机器人创企WiRobotics推出了一款内置个性化AI教练的超轻量步行辅助可穿戴机器人WIM,称这一设备能减少用户20%的步行能量,帮行动不便的人获得更好的锻炼体验。旨在增强人体能力、提高工作效率、降低劳动强度,并在某些情况下帮助恢复身体功能。 一、主要功能1.姿态支持:设备可以监测用户的身体姿态,并通过提供支撑来减少不正确姿势引起的身体压…

    2024-01-13
    02
  • 人工智能遇上量子:ai模型将拥有“理解”能力

    能够理解世界而不仅仅是生成一个单词或代码的人工智能系统是许多人工智能研究人员的梦想。 一群量子计算科学家开发了一种新方法,使梦想更近了一步:他们开发了一个框架,使机器能够像人类一样学习。 Quantinuum 团队的一篇新论文描述了该框架,该框架可以让人工智能系统学习形状和颜色等概念。机器不仅可以看到图像并识别它,而且还可以真正理解该物体的​​含义。 他们开…

    2024-02-17
    00
  • 抖音推出的AI绘画工具Dreamina开启内测,可生成动漫风格

    近期抖音发布了新的ai绘画工具——Dreamina;它不仅能够根据简单的文本提示生成高质量的图像,还具备一系列强大的图像编辑功能,让你的创作过程更加灵活和高效;它可以根据用户输入的文字,快速将创意和想法转化为图像,支持多个维度的生成和修改。 Dreamina使用了卷积神经网络(Convolutional Neural Network,CNN)等先进的人工智能…

    2024-01-19
    01

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注