Stability AI 是人工智能图片生成器 Stable Diffusion 背后的初创公司。
6月5日,它发布了一个用于生成声音和歌曲的开源人工智能模型Stable Audio Open,该模型使用来自无版权的免费音乐库FreeSound 和免费音乐档案库的约 486,000 个样本进行训练。
Stable Audio Open它采用文本描述(例如“在经过处理的录音室中播放摇滚节拍,在原声鼓上演奏鼓乐”)并输出最长 47 秒的音频。
Stability AI 表示,该模型可用于为视频、电影和电视节目创建鼓点、乐器重复乐段、环境噪音和“制作元素”,以及“编辑”现有歌曲或将一首歌曲的风格(例如爵士乐)应用于另一首歌曲。
Stability AI在其公司博客上的一篇文章中写道: “此次开源版本的一个主要好处是,用户可以根据自己的自定义音频数据对模型进行微调。” “例如,鼓手可以根据自己的鼓录音样本进行微调以产生新的节奏。”
然而,Stable Audio Open 也有其局限性。它无法制作完整的歌曲、旋律或人声——至少不能制作出好听的歌曲。Stability AI 表示,寻求这些功能的用户选择该公司的高级 Stable Audio 服务,其可制作长达三分钟的高质量完整曲目,具有连贯的音乐结构,以及音频到音频生成和连贯的多部分音乐作品等高级功能。
Stable Audio Open 也不能用于商业用途;其服务条款禁止这样做。
|