谷歌Mobile Diffusion:让AI艺术跃上移动设备

摘要:谷歌的5.2亿参数模型可以直接在智能手机和其他移动设备上实现人工智能艺术生成;Mobile Diffusion利用了生成式人工智能的下一个趋势:边缘计算。

谷歌Mobile Diffusion:让AI艺术跃上移动设备

谷歌研究人员已经开发了一种文本到图像的AI模型,该模型可以在移动设备上利用边缘计算生成高质量图像。

这个恰如其分地被命名为Mobile Diffusion的模型非常微小,它可以快速创建512×512的图像,因为它不需要去云端进行处理,而是在设备上完成。该模型的团队在iOS和Android设备上都进行了评估,声称它在半秒内就能运行。

像Stable Diffusion和DALL-E这样的图像生成模型有数十亿个参数,需要强大的桌面或服务器来运行,这使得它们无法在手机上运行。

谷歌的研究人员改变了这一点,并创建了一个专门为移动设备设计的扩散模型。

其结果是一个5.2亿参数的模型,可以根据文本提示快速创建图像,延迟有限。

如此小的模型使图像生成模型能够在为消费者设计的移动设备上工作,大大降低了AI图像生成的使用成本。

谷歌Mobile Diffusion:让AI艺术跃上移动设备

在延迟和大小方面,Mobile Diffusion具有卓越的效率,考虑到它能够在输入文本提示词时提供快速图像生成体验的能力,它有可能成为在移动部署的一个非常友好的选择。”谷歌的研究人员在博客文章中写道。

减少资源以加快生成时间

Mobile Diffusion遵循潜在扩散模型的设计原则:它有一个文本编码器、一个扩散UNet和一个图像解码器。

该模型旨在专注于优化底层模型架构和采样技术,以实现亚秒级推理速度。

其底层架构有效地减少了采样步骤,以加快图像生成时间。

谷歌Mobile Diffusion:让AI艺术跃上移动设备

传统的文本到图像的扩散模型使用与Stable Diffusion的UNet架构中发现的相似的转换器块。这些包含几个层,包括一个自注意力层,负责驱动文本理解。

然而,谷歌的研究人员认为,这些多层块“给效率带来了重大挑战,因为注意力操作的计算费用很高。”

相反,他们采用了谷歌设计的UViT架构的想法,该架构在UNet的瓶颈处放置了更多的转换器块。

MobileDiffusion论文指出,这种设计选择“是由于注意力计算在瓶颈处的资源密集度较低,因为其维度较低。”

此外,研究人员还优化了Mobile Diffusion的图像解码器,使其变得轻量级,通过使用一种称为变分自编码器(VAE)的技术将RGB图像编码为较小的8通道潜在变量。更轻的解码器将延迟减少了近50%,同时提高了模型图像输出的质量。

“有了如此紧凑的模型,Mobile Diffusion可以在各种领域生成高质量的多样化图像。”该论文称。

Mobile Diffusion的核心功能总结:

1.移动端运行:Mobile Diffusion专门设计用于在移动设备上运行,无需依赖云端处理,降低了对网络连接的需求,提高了便捷性和实时性。

2.高效生成:该模型能够在设备上快速创建高质量的512×512图像,并在半秒内完成运行。这得益于其优化的底层模型架构和采样技术,减少了计算量和模型参数数量,提高了推理速度。

3.轻量级设计:Mobile Diffusion具有一个5.2亿参数的模型,比Stable Diffusion和DALL-E等大型模型小得多,使其能够在移动设备上高效运行。这种轻量级设计降低了AI图像生成的使用成本,使其更适用于消费者设备。

4.优化注意力机制:Mobile Diffusion通过优化注意力机制,减少了计算复杂度,提高了模型效率。它采用了谷歌设计的UViT架构,在UNet的瓶颈处放置更多的转换器块,以降低注意力操作的计算费用。

5.图像解码器优化:Mobile Diffusion的图像解码器通过使用变分自编码器(VAE)技术进行了优化,将RGB图像编码为较小的8通道潜在变量。这种轻量级的解码器降低了延迟,提高了图像输出的质量。

6.多样性和可扩展性:Mobile Diffusion具有生成高质量多样化图像的能力,适用于各种领域,如艺术、设计、摄影和社交媒体等。此外,该模型的可扩展性使其能够适应不同的应用场景和需求。

7.实时反馈:由于Mobile Diffusion在移动设备上运行,用户可以实时输入文本提示词并获得相应的图像生成结果,增强了交互性和用户体验。

发布者:ai发烧友,转转请注明出处:http://www.ouzou.cn/ai-jishu/4267.html

(0)
ai发烧友的头像ai发烧友
上一篇 2024-02-02 下午11:40
下一篇 2024-02-04 下午11:59

相关推荐

  • LG在2024年CES上推出一款智能家居双足机器人

    在2024年的国际消费电子展(CES)上,LG推出了一个引人注目的智能家居双足机器人。这款机器人以其憨态可掬的外观和先进的功能吸引了众多参观者的关注。 从外观设计上看,这款双足机器人拥有圆润的身形和大眼睛,看起来非常可爱和亲切。它的“耳朵”部分设计得仿佛佩戴了耳机,增添了一丝时尚感。这种外观设计不仅使机器人看起来更加友好,还有助于减少用户在使用过程中的陌生感…

    2024-01-13
    01
  • 知名作者承认使用人工智能创作了获奖小说

    一位获得日本最负盛名图书奖的作家透露,她小说中大约有5%的内容直接来自生成式人工智能。 据《共同社》报道,九段理惠因其小说《东京之塔》获得了第170届芥川奖,这部小说描述了一个未来的东京,到处都在使用生成式人工智能。其中一个角色是“AI构建”的,类似于ChatGPT。 在九段的言论引起社交媒体广泛关注后,她澄清说她只在“AI构建”的回答中使用了AI生成的文本…

    2024-02-06
    00
  • 亚马逊上线一款AI购物助手,帮助买家快速获取产品信息!

    亚马逊推出了一款生成式人工智能(AI)工具,被设计用于提供更优质、更个性化的购物体验。这款工具具有深度学习和自然语言处理的能力,使得它可以理解和回应购物者的各种问题。 该工具能够帮助买家更快速、便捷的获取有关商品的信息。因为他们不用再花费大量时间去浏览商品详情页和其他买家评论,想了解的重点信息可以直接通过询问得到详情。 需要注意的是,这款工具无法回答与商品无…

    2024-01-21
    01
  • 效果超越Gen-2!字节发布视频生成模型MagicVideo-V2

    昨日,字节跳动最新发布了MagicVideo-V2多阶段高美学视频生成论文,引起了广泛的关注;人们对文本描述生成高保真视频的需求不断增长,该模型的动作幅度很大,而且看起来非常自然。 MagicVideo-V2是一个集成了文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块的端到端视频生成管道。其架构设计使得MagicVideo-V2 能够生成外观美观…

    2024-01-11
    00
  • 抖音推出的AI绘画工具Dreamina开启内测,可生成动漫风格

    近期抖音发布了新的ai绘画工具——Dreamina;它不仅能够根据简单的文本提示生成高质量的图像,还具备一系列强大的图像编辑功能,让你的创作过程更加灵活和高效;它可以根据用户输入的文字,快速将创意和想法转化为图像,支持多个维度的生成和修改。 Dreamina使用了卷积神经网络(Convolutional Neural Network,CNN)等先进的人工智能…

    2024-01-19
    01

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注