摘要:谷歌的5.2亿参数模型可以直接在智能手机和其他移动设备上实现人工智能艺术生成;Mobile Diffusion利用了生成式人工智能的下一个趋势:边缘计算。
![谷歌Mobile Diffusion:让AI艺术跃上移动设备](http://www.ouzou.cn/wp-content/themes/justnews/themer/assets/images/lazy.png)
谷歌研究人员已经开发了一种文本到图像的AI模型,该模型可以在移动设备上利用边缘计算生成高质量图像。
这个恰如其分地被命名为Mobile Diffusion的模型非常微小,它可以快速创建512×512的图像,因为它不需要去云端进行处理,而是在设备上完成。该模型的团队在iOS和Android设备上都进行了评估,声称它在半秒内就能运行。
像Stable Diffusion和DALL-E这样的图像生成模型有数十亿个参数,需要强大的桌面或服务器来运行,这使得它们无法在手机上运行。
谷歌的研究人员改变了这一点,并创建了一个专门为移动设备设计的扩散模型。
其结果是一个5.2亿参数的模型,可以根据文本提示快速创建图像,延迟有限。
如此小的模型使图像生成模型能够在为消费者设计的移动设备上工作,大大降低了AI图像生成的使用成本。
![谷歌Mobile Diffusion:让AI艺术跃上移动设备](http://www.ouzou.cn/wp-content/themes/justnews/themer/assets/images/lazy.png)
在延迟和大小方面,Mobile Diffusion具有卓越的效率,考虑到它能够在输入文本提示词时提供快速图像生成体验的能力,它有可能成为在移动部署的一个非常友好的选择。”谷歌的研究人员在博客文章中写道。
减少资源以加快生成时间
Mobile Diffusion遵循潜在扩散模型的设计原则:它有一个文本编码器、一个扩散UNet和一个图像解码器。
该模型旨在专注于优化底层模型架构和采样技术,以实现亚秒级推理速度。
其底层架构有效地减少了采样步骤,以加快图像生成时间。
![谷歌Mobile Diffusion:让AI艺术跃上移动设备](http://www.ouzou.cn/wp-content/themes/justnews/themer/assets/images/lazy.png)
传统的文本到图像的扩散模型使用与Stable Diffusion的UNet架构中发现的相似的转换器块。这些包含几个层,包括一个自注意力层,负责驱动文本理解。
然而,谷歌的研究人员认为,这些多层块“给效率带来了重大挑战,因为注意力操作的计算费用很高。”
相反,他们采用了谷歌设计的UViT架构的想法,该架构在UNet的瓶颈处放置了更多的转换器块。
MobileDiffusion论文指出,这种设计选择“是由于注意力计算在瓶颈处的资源密集度较低,因为其维度较低。”
此外,研究人员还优化了Mobile Diffusion的图像解码器,使其变得轻量级,通过使用一种称为变分自编码器(VAE)的技术将RGB图像编码为较小的8通道潜在变量。更轻的解码器将延迟减少了近50%,同时提高了模型图像输出的质量。
“有了如此紧凑的模型,Mobile Diffusion可以在各种领域生成高质量的多样化图像。”该论文称。
Mobile Diffusion的核心功能总结:
1.移动端运行:Mobile Diffusion专门设计用于在移动设备上运行,无需依赖云端处理,降低了对网络连接的需求,提高了便捷性和实时性。
2.高效生成:该模型能够在设备上快速创建高质量的512×512图像,并在半秒内完成运行。这得益于其优化的底层模型架构和采样技术,减少了计算量和模型参数数量,提高了推理速度。
3.轻量级设计:Mobile Diffusion具有一个5.2亿参数的模型,比Stable Diffusion和DALL-E等大型模型小得多,使其能够在移动设备上高效运行。这种轻量级设计降低了AI图像生成的使用成本,使其更适用于消费者设备。
4.优化注意力机制:Mobile Diffusion通过优化注意力机制,减少了计算复杂度,提高了模型效率。它采用了谷歌设计的UViT架构,在UNet的瓶颈处放置更多的转换器块,以降低注意力操作的计算费用。
5.图像解码器优化:Mobile Diffusion的图像解码器通过使用变分自编码器(VAE)技术进行了优化,将RGB图像编码为较小的8通道潜在变量。这种轻量级的解码器降低了延迟,提高了图像输出的质量。
6.多样性和可扩展性:Mobile Diffusion具有生成高质量多样化图像的能力,适用于各种领域,如艺术、设计、摄影和社交媒体等。此外,该模型的可扩展性使其能够适应不同的应用场景和需求。
7.实时反馈:由于Mobile Diffusion在移动设备上运行,用户可以实时输入文本提示词并获得相应的图像生成结果,增强了交互性和用户体验。
发布者:ai发烧友,转转请注明出处:http://www.ouzou.cn/ai-jishu/4267.html