谷歌 Deepmind 推出 V2A，一种可以为任何视频添加逼真音频的人工智能

小哪吒

本帖最后由小哪吒于 6-18 23:30 编辑

Google Deepmind 推出了为视频生成音频（Video-to-Audio，V2A）的生成式 AI 模型，V2A 技术将视频像素与自然语言指令相结合，为无声视频生成细致的音轨。

V2A 可以与 Deepmind 的Veo或Sora、KLING或Gen 3等竞争对手的视频生成模型结合使用，以添加戏剧性音乐、逼真的音效或对话，以匹配视频的角色和情绪。当然，该技术还可用于为传统素材（如档案素材和无声电影）添加声音。当然，它的强大之处在于能够为每个视频输入创建无限数量的配乐。

DeepMind的研究人员通过在视频、音频以及AI生成的注释上进行训练，这些注释包含了声音和对话的详细描述，使技术学会了将特定声音与视觉场景相联系。DeepMind团队并非首个发布能够生成音效的AI工具，ElevenLabs最近也推出了类似产品，而DeepMind的工具因其能够理解原始像素并可选择添加文本提示而脱颖而出。

文本提示虽为可选，但可用于塑造和完善最终产品，提高其准确性和逼真度。例如，用户可以输入积极的提示以引导系统产生期望的声音，或输入消极的提示以避免不想要的声音。在示例中，团队使用了包括“电影、惊悚片、恐怖片、音乐、紧张、氛围、混凝土上的脚步声”等提示。

研究人员承认，他们正在努力克服V2A技术的一些现有局限，如源视频的失真可能导致输出音频质量下降，同时他们也在改进生成对话的唇形同步。此外，DeepMind团队承诺，在将这项技术推向全球之前，将进行严格的安全评估和测试。