使用文本和音频作为输入,NVIDIA 的新型生成式 AI 模型可以创建音乐、声音和声效的任意组合。
英伟达推出了一款突破性的生成式AI音频模型Fugatto(全称:Foundational Generative Audio Transformer Opus 1),这款被誉为"声音界的瑞士军刀"的模型,能够通过文本和音频输入,实现前所未有的全方位声音生成与转换。 Fugatto最显著的特点在于其惊人的灵活性。它不仅可以根据文本提示创作音乐,还能对现有音乐进行乐器的添加或移除,调整语音的口音与情感,甚至能够创造出前所未闻的全新声音。多位业内专家认为,这种多任务处理能力将为音乐制作、广告配音、游戏开发等领域带来革命性变革。
作为一个拥有25亿参数的基础模型,Fugatto采用了创新的ComposableART技术,使用户能够精确控制声音特征的混合程度。例如,用户可以调节语音中的口音浓淡或情感强度,甚至能够创造出"小提琴模仿狗叫"这样独特的声音效果。 英伟达音频研究部门经理Rafael Valle表示:"我们的目标是创造一个能像人类一样理解和生成声音的模型。"值得一提的是,Fugatto还具备时间插值功能,能够生成随时间变化的声音场景,比如将雷雨声逐渐过渡到晨曦中的鸟鸣。 多元化的开发团队为Fugatto注入了跨文化的创新基因。来自印度、巴西、中国、约旦和韩国的研究人员通力协作,使该模型在多语言和多口音处理方面表现出色。该模型在32个NVIDIA H100 Tensor Core GPU组成的DGX系统上完成训练,处理了数百万个音频样本。 格莱美获奖制作人Ido Zmishlany评价道:"音乐史就是一部技术进步史。电吉他催生了摇滚乐,采样器带来了嘻哈音乐,而AI正在书写音乐史的新篇章。"
|