当前位置:»资讯 AI新闻 全球AI最前线

[行业动态] 英伟达发布音频模型Fugatto:可以创建音乐、声音和声音的任意组合

        使用文本和音频作为输入,NVIDIA 的新型生成式 AI 模型可以创建音乐、声音和声效的任意组合。
        英伟达推出了一款突破性的生成式AI音频模型Fugatto(全称:Foundational Generative Audio Transformer Opus 1),这款被誉为"声音界的瑞士军刀"的模型,能够通过文本和音频输入,实现前所未有的全方位声音生成与转换。
WX20241126-224003@2x.png

        Fugatto最显著的特点在于其惊人的灵活性。它不仅可以根据文本提示创作音乐,还能对现有音乐进行乐器的添加或移除,调整语音的口音与情感,甚至能够创造出前所未闻的全新声音。多位业内专家认为,这种多任务处理能力将为音乐制作、广告配音、游戏开发等领域带来革命性变革。

        作为一个拥有25亿参数的基础模型,Fugatto采用了创新的ComposableART技术,使用户能够精确控制声音特征的混合程度。例如,用户可以调节语音中的口音浓淡或情感强度,甚至能够创造出"小提琴模仿狗叫"这样独特的声音效果。
        英伟达音频研究部门经理Rafael Valle表示:"我们的目标是创造一个能像人类一样理解和生成声音的模型。"值得一提的是,Fugatto还具备时间插值功能,能够生成随时间变化的声音场景,比如将雷雨声逐渐过渡到晨曦中的鸟鸣。
        多元化的开发团队为Fugatto注入了跨文化的创新基因。来自印度、巴西、中国、约旦和韩国的研究人员通力协作,使该模型在多语言和多口音处理方面表现出色。该模型在32个NVIDIA H100 Tensor Core GPU组成的DGX系统上完成训练,处理了数百万个音频样本。
        格莱美获奖制作人Ido Zmishlany评价道:"音乐史就是一部技术进步史。电吉他催生了摇滚乐,采样器带来了嘻哈音乐,而AI正在书写音乐史的新篇章。"

声明: 本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!
分享到:
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

豫ICP备2024052610号-1 ©AI闹海