本帖最后由 小哪吒 于 6-18 23:30 编辑
Google Deepmind 推出了为视频生成音频(Video-to-Audio,V2A)的生成式 AI 模型,V2A 技术将视频像素与自然语言指令相结合,为无声视频生成细致的音轨。
V2A 可以与 Deepmind 的Veo或Sora、KLING或Gen 3等竞争对手的视频生成模型结合使用,以添加戏剧性音乐、逼真的音效或对话,以匹配视频的角色和情绪。当然,该技术还可用于为传统素材(如档案素材和无声电影)添加声音。当然,它的强大之处在于能够为每个视频输入创建无限数量的配乐。
DeepMind的研究人员通过在视频、音频以及AI生成的注释上进行训练,这些注释包含了声音和对话的详细描述,使技术学会了将特定声音与视觉场景相联系。DeepMind团队并非首个发布能够生成音效的AI工具,ElevenLabs最近也推出了类似产品,而DeepMind的工具因其能够理解原始像素并可选择添加文本提示而脱颖而出。
文本提示虽为可选,但可用于塑造和完善最终产品,提高其准确性和逼真度。例如,用户可以输入积极的提示以引导系统产生期望的声音,或输入消极的提示以避免不想要的声音。在示例中,团队使用了包括“电影、惊悚片、恐怖片、音乐、紧张、氛围、混凝土上的脚步声”等提示。
研究人员承认,他们正在努力克服V2A技术的一些现有局限,如源视频的失真可能导致输出音频质量下降,同时他们也在改进生成对话的唇形同步。此外,DeepMind团队承诺,在将这项技术推向全球之前,将进行严格的安全评估和测试。
|