谷歌Mobile Diffusion:让AI艺术跃上移动设备

摘要:谷歌的5.2亿参数模型可以直接在智能手机和其他移动设备上实现人工智能艺术生成;Mobile Diffusion利用了生成式人工智能的下一个趋势:边缘计算。

谷歌Mobile Diffusion:让AI艺术跃上移动设备

谷歌研究人员已经开发了一种文本到图像的AI模型,该模型可以在移动设备上利用边缘计算生成高质量图像。

这个恰如其分地被命名为Mobile Diffusion的模型非常微小,它可以快速创建512×512的图像,因为它不需要去云端进行处理,而是在设备上完成。该模型的团队在iOS和Android设备上都进行了评估,声称它在半秒内就能运行。

像Stable Diffusion和DALL-E这样的图像生成模型有数十亿个参数,需要强大的桌面或服务器来运行,这使得它们无法在手机上运行。

谷歌的研究人员改变了这一点,并创建了一个专门为移动设备设计的扩散模型。

其结果是一个5.2亿参数的模型,可以根据文本提示快速创建图像,延迟有限。

如此小的模型使图像生成模型能够在为消费者设计的移动设备上工作,大大降低了AI图像生成的使用成本。

谷歌Mobile Diffusion:让AI艺术跃上移动设备

在延迟和大小方面,Mobile Diffusion具有卓越的效率,考虑到它能够在输入文本提示词时提供快速图像生成体验的能力,它有可能成为在移动部署的一个非常友好的选择。”谷歌的研究人员在博客文章中写道。

减少资源以加快生成时间

Mobile Diffusion遵循潜在扩散模型的设计原则:它有一个文本编码器、一个扩散UNet和一个图像解码器。

该模型旨在专注于优化底层模型架构和采样技术,以实现亚秒级推理速度。

其底层架构有效地减少了采样步骤,以加快图像生成时间。

谷歌Mobile Diffusion:让AI艺术跃上移动设备

传统的文本到图像的扩散模型使用与Stable Diffusion的UNet架构中发现的相似的转换器块。这些包含几个层,包括一个自注意力层,负责驱动文本理解。

然而,谷歌的研究人员认为,这些多层块“给效率带来了重大挑战,因为注意力操作的计算费用很高。”

相反,他们采用了谷歌设计的UViT架构的想法,该架构在UNet的瓶颈处放置了更多的转换器块。

MobileDiffusion论文指出,这种设计选择“是由于注意力计算在瓶颈处的资源密集度较低,因为其维度较低。”

此外,研究人员还优化了Mobile Diffusion的图像解码器,使其变得轻量级,通过使用一种称为变分自编码器(VAE)的技术将RGB图像编码为较小的8通道潜在变量。更轻的解码器将延迟减少了近50%,同时提高了模型图像输出的质量。

“有了如此紧凑的模型,Mobile Diffusion可以在各种领域生成高质量的多样化图像。”该论文称。

Mobile Diffusion的核心功能总结:

1.移动端运行:Mobile Diffusion专门设计用于在移动设备上运行,无需依赖云端处理,降低了对网络连接的需求,提高了便捷性和实时性。

2.高效生成:该模型能够在设备上快速创建高质量的512×512图像,并在半秒内完成运行。这得益于其优化的底层模型架构和采样技术,减少了计算量和模型参数数量,提高了推理速度。

3.轻量级设计:Mobile Diffusion具有一个5.2亿参数的模型,比Stable Diffusion和DALL-E等大型模型小得多,使其能够在移动设备上高效运行。这种轻量级设计降低了AI图像生成的使用成本,使其更适用于消费者设备。

4.优化注意力机制:Mobile Diffusion通过优化注意力机制,减少了计算复杂度,提高了模型效率。它采用了谷歌设计的UViT架构,在UNet的瓶颈处放置更多的转换器块,以降低注意力操作的计算费用。

5.图像解码器优化:Mobile Diffusion的图像解码器通过使用变分自编码器(VAE)技术进行了优化,将RGB图像编码为较小的8通道潜在变量。这种轻量级的解码器降低了延迟,提高了图像输出的质量。

6.多样性和可扩展性:Mobile Diffusion具有生成高质量多样化图像的能力,适用于各种领域,如艺术、设计、摄影和社交媒体等。此外,该模型的可扩展性使其能够适应不同的应用场景和需求。

7.实时反馈:由于Mobile Diffusion在移动设备上运行,用户可以实时输入文本提示词并获得相应的图像生成结果,增强了交互性和用户体验。

发布者:ai发烧友,转转请注明出处:http://www.ouzou.cn/ai-jishu/4267.html

(0)
ai发烧友的头像ai发烧友
上一篇 2024-02-02 下午11:40
下一篇 2024-02-04 下午11:59

相关推荐

  • 知名作者承认使用人工智能创作了获奖小说

    一位获得日本最负盛名图书奖的作家透露,她小说中大约有5%的内容直接来自生成式人工智能。 据《共同社》报道,九段理惠因其小说《东京之塔》获得了第170届芥川奖,这部小说描述了一个未来的东京,到处都在使用生成式人工智能。其中一个角色是“AI构建”的,类似于ChatGPT。 在九段的言论引起社交媒体广泛关注后,她澄清说她只在“AI构建”的回答中使用了AI生成的文本…

    2024-02-06
    00
  • Google Chrome浏览器新增人工智能生成功能

    Google今天宣布,计划在最新版的 Mac 版 Chrome 浏览器(M121)中添加实验性的生成式人工智能功能,帮助用户组织标签页、创建主题和起草内容。标签管理器能够根据打开的标签建议和创建标签组,右键单击标签并选择”组织类似标签”选项即可访问该选项。 通过文本到图像的扩散模型,Chrome 浏览器用户可以根据主题、情绪、视觉风格…

    2024-01-24
    00
  • 令比尔·盖茨也惊叹的5家机器人初创公司

    一、Agility Robotics位于美国俄勒冈州科瓦利斯市的Agility Robotics成为盖茨推荐清单上的首选并不令人意外。该公司的Digit人形机器人正在接受GXO Logistics和亚马逊的测试。在过去一年里,人形机器人领域取得了显著的发展,而Digit的灵活性让它领先于竞争对手。为了迎接未来的增长,Agility Robotics去年在俄勒…

    2024-01-27
    00
  • 我们离虚拟世界还远吗?谷歌推出人工智能模型 “Genie”–通过单张图像创建可玩的虚拟世界

    谷歌研究人员发布了一个新的人工智能模型,它可以将文字提示、草图或想法转化为一个可以互动和游戏的虚拟世界。 这个虚拟世界模型被命名为 “精灵”(Genie),它是根据游戏和其他网上视频训练出来的,目前只是一个研究预览版。这些游戏更像是 2D 平台游戏,而不是完整的 VR 游戏。 虽然这与《星际迷航》中的那种真正的 “全息甲板…

    2024-02-26
    00
  • chagpt总结:2023年ai的发展历程和2024可能的突破方向

    苹果和腾讯这两个神仙只是闹别扭,其他的小鬼便遭了殃。

    2024-01-02
    01

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注