人工智能语音初创公司 ElevenLabs 首次为人工智能生成的视频添加音效,让人们了解了其未来的发布计划。
ElevenLabs 以其近似人类的文本到语音和合成语音服务而闻名,它为使用 OpenAI 的 Sora 制作的视频添加了人工生成的音效。
OpenAI 上周发布了其令人印象深刻的 Sora 文本到视频人工智能模型,展示了迄今为止最逼真、最一致、最长的人工智能生成视频。
ElevenLabs 表示,它还没有准备好发布其文本-声音特效模型,但一旦上线,它将能够创建包括脚步声、海浪声和环境声在内的各种声音。该公司在 X 上写道:”我们被 Sora 的发布所震撼,但觉得它还需要点什么…… 如果你能用人工智能来描述一种声音并生成它,会怎么样呢?
这段网络疯传的sora生成视频的配音由ElevenLabs制作
ElevenLabs 公司成立于 2022 年,被认为能制作出最逼真的合成语音,生成的语音足够接近自然,几乎无法察觉。
今年年初,这家总部位于英国的初创公司完成了价值 8000 万美元的 B 轮融资,成为价值十亿美元的独角兽企业。在宣布新一轮融资的同时,该公司还推出了一款新工具,用于在视频中同步人工智能语音,以实现自动翻译,进军国际配音市场。
市场上已经有一些文本到特效的模型,通常是围绕音乐人工智能模型建立的,包括 myEdit、AudioGen 和 StabilityAI 的 Stable Audio。ElevenLabs 提供的声音似乎是最自然的。
目前还不清楚文本到声音特效模型将于何时推出,但 ElevenLabs 已经发布了一个等待注册列表,要求输入 “您可能用来创建声音的提示”。
这对人工智能视频意味着什么?
下一阶段可能会出现一些工具,它们可以分析视频内容,并在正确的位置自动添加音效。这同样适用于音乐。目前,大多数人工智能音乐工具都是从文本到音乐,但未来随着多模态技术的发展,它们可以从图像或视频开始。
生成式人工智能的梦想之一,就是能够根据一个提示创建完整、全面的内容。
目前,这还只是一个梦想,更不用说接近现实了,但随着文本到特效、改进的人工智能视频和合成语音等技术的进步,梦想正在一步步变为现实。
发布者:ai发烧友,转转请注明出处:http://www.ouzou.cn/ai-jishu/4331.html