当前位置:»资讯 AI新闻 全球AI最前线

[行业动态] 谷歌 Deepmind 推出 V2A,一种可以为任何视频添加逼真音频的人工智能

本帖最后由 小哪吒 于 6-18 23:30 编辑

699ed490-2d38-11ef-be3f-f6334564b78a.webp

Google Deepmind 推出了为视频生成音频(Video-to-Audio,V2A)的生成式 AI 模型,V2A 技术将视频像素与自然语言指令相结合,为无声视频生成细致的音轨。

V2A 可以与 Deepmind 的Veo或Sora、KLING或Gen 3等竞争对手的视频生成模型结合使用,以添加戏剧性音乐、逼真的音效或对话,以匹配视频的角色和情绪。当然,该技术还可用于为传统素材(如档案素材和无声电影)添加声音。当然,它的强大之处在于能够为每个视频输入创建无限数量的配乐。

DeepMind的研究人员通过在视频、音频以及AI生成的注释上进行训练,这些注释包含了声音和对话的详细描述,使技术学会了将特定声音与视觉场景相联系。DeepMind团队并非首个发布能够生成音效的AI工具,ElevenLabs最近也推出了类似产品,而DeepMind的工具因其能够理解原始像素并可选择添加文本提示而脱颖而出。

文本提示虽为可选,但可用于塑造和完善最终产品,提高其准确性和逼真度。例如,用户可以输入积极的提示以引导系统产生期望的声音,或输入消极的提示以避免不想要的声音。在示例中,团队使用了包括“电影、惊悚片、恐怖片、音乐、紧张、氛围、混凝土上的脚步声”等提示。

研究人员承认,他们正在努力克服V2A技术的一些现有局限,如源视频的失真可能导致输出音频质量下降,同时他们也在改进生成对话的唇形同步。此外,DeepMind团队承诺,在将这项技术推向全球之前,将进行严格的安全评估和测试。

声明: 本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!
分享到:
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

豫ICP备2024052610号-1 ©AI闹海