![Google推出了一款可从简短文本生成逼真视频的新型ai模型Lumiere](http://www.ouzou.cn/wp-content/themes/justnews/themer/assets/images/lazy.png)
Lumiere创建的视频展示了逼真的运动,甚至可以使用图像和其他视频作为输入来改善结果。在题为《用于视频生成的时空扩散模型》的论文中揭示,Lumiere的工作方式与现有的视频生成模型不同。它一次性生成视频的时间持续,而现有的模型则通过合成关键帧,然后进行时间超分辨率。
简单来说,Lumiere关注图像中物体的运动,而以前的系统则通过已经发生运动的关键帧进行拼接视频。
该模型能够生成最高80帧的视频。相比之下,Stability的Stable Video Diffusion分别为14和25帧。帧数越多,视频的运动就越流畅。
据Google团队称,Lumiere在各种测试中均优于Pika、Meta和Runway等公司的竞争对手视频生成模型,包括零样本试验。
![Google推出了一款可从简短文本生成逼真视频的新型ai模型Lumiere](http://www.ouzou.cn/wp-content/themes/justnews/themer/assets/images/lazy.png)
研究人员还声称,Lumiere的输出可以用于内容创作任务和视频编辑,包括使用经过微调的文本到图像模型权重进行视频修补和风格化生成(模仿所展示的艺术风格)。
为了达到这个目的,Lumiere利用了一种新的架构,称为时空U-Net。这通过模型的单次传递一次性生成整个视频的时间持续。
Google团队写道,这种新颖的方法提高了输出的一致性。论文中写道:“通过部署空间和(重要的是)时间的降采样和升采样,并利用预训练的文本到图像扩散模型,我们的模型通过在多个时空尺度上处理来直接生成全帧率、低分辨率的视频。”
![Google推出了一款可从简短文本生成逼真视频的新型ai模型Lumiere](http://www.ouzou.cn/wp-content/themes/justnews/themer/assets/images/lazy.png)
Lumiere项目的目标是创建一个系统,使初学者更容易创建视频内容。
然而,论文承认了或许存在滥用的风险,特别是警告Lumiere等模型可能被用来创建虚假或有害的内容。
“我们认为,开发和应用检测偏见和恶意用例的工具是至关重要的,以确保安全和公平的使用,”论文中写道。
截至撰写本文时,Google尚未向公众提供该模型。但是,您可以在GitHub上的展示页面上探索各种示例生成。
发布者:ai发烧友,转转请注明出处:http://www.ouzou.cn/ai-jishu/4230.html