英伟达发布音频模型Fugatto：可以创建音乐、声音和声音的任意组合

小哪吒

使用文本和音频作为输入，NVIDIA 的新型生成式 AI 模型可以创建音乐、声音和声效的任意组合。

英伟达推出了一款突破性的生成式AI音频模型Fugatto（全称：Foundational Generative Audio Transformer Opus 1），这款被誉为"声音界的瑞士军刀"的模型，能够通过文本和音频输入，实现前所未有的全方位声音生成与转换。

Fugatto最显著的特点在于其惊人的灵活性。它不仅可以根据文本提示创作音乐，还能对现有音乐进行乐器的添加或移除，调整语音的口音与情感，甚至能够创造出前所未闻的全新声音。多位业内专家认为，这种多任务处理能力将为音乐制作、广告配音、游戏开发等领域带来革命性变革。

作为一个拥有25亿参数的基础模型，Fugatto采用了创新的ComposableART技术，使用户能够精确控制声音特征的混合程度。例如，用户可以调节语音中的口音浓淡或情感强度，甚至能够创造出"小提琴模仿狗叫"这样独特的声音效果。

英伟达音频研究部门经理Rafael Valle表示："我们的目标是创造一个能像人类一样理解和生成声音的模型。"值得一提的是，Fugatto还具备时间插值功能，能够生成随时间变化的声音场景，比如将雷雨声逐渐过渡到晨曦中的鸟鸣。

多元化的开发团队为Fugatto注入了跨文化的创新基因。来自印度、巴西、中国、约旦和韩国的研究人员通力协作，使该模型在多语言和多口音处理方面表现出色。该模型在32个NVIDIA H100 Tensor Core GPU组成的DGX系统上完成训练，处理了数百万个音频样本。

格莱美获奖制作人Ido Zmishlany评价道："音乐史就是一部技术进步史。电吉他催生了摇滚乐，采样器带来了嘻哈音乐，而AI正在书写音乐史的新篇章。"