Stability AI 推出开源音频大模型Stable Audio Open

小哪吒

Stability AI 是人工智能图片生成器 Stable Diffusion 背后的初创公司。

6月5日，它发布了一个用于生成声音和歌曲的开源人工智能模型Stable Audio Open，该模型使用来自无版权的免费音乐库FreeSound 和免费音乐档案库的约 486,000 个样本进行训练。

Stable Audio Open它采用文本描述（例如“在经过处理的录音室中播放摇滚节拍，在原声鼓上演奏鼓乐”）并输出最长 47 秒的音频。

Stability AI 表示，该模型可用于为视频、电影和电视节目创建鼓点、乐器重复乐段、环境噪音和“制作元素”，以及“编辑”现有歌曲或将一首歌曲的风格（例如爵士乐）应用于另一首歌曲。

Stability AI在其公司博客上的一篇文章中写道： “此次开源版本的一个主要好处是，用户可以根据自己的自定义音频数据对模型进行微调。” “例如，鼓手可以根据自己的鼓录音样本进行微调以产生新的节奏。”

然而，Stable Audio Open 也有其局限性。它无法制作完整的歌曲、旋律或人声——至少不能制作出好听的歌曲。Stability AI 表示，寻求这些功能的用户选择该公司的高级 Stable Audio 服务，其可制作长达三分钟的高质量完整曲目，具有连贯的音乐结构，以及音频到音频生成和连贯的多部分音乐作品等高级功能。

Stable Audio Open 也不能用于商业用途；其服务条款禁止这样做。

huggingface地址：https://huggingface.co/stabilityai/stable-audio-open-1.0

[行业动态] Stability AI 推出开源音频大模型Stable Audio Open

相关帖子

硅谷大亨参与争吵：埃隆·马斯克 (Elon Musk) 与 OpenAI 之争

震撼发布！马斯克的xAI突破极限，3140亿参数巨兽Grok-1撼动AI界！

通义千问Qwen1.5-MoE开源

HuggingFace 发布 Parler-TTS：高质量、可控的文本转语音 (TTS) 开源模型

Hugging Face 推出 8B 开源视觉语言模型 Idefics2

开源还是闭源？周鸿祎、王小川与李彦宏的PK揭示了AI发展的关键分歧

为什么Meta首席执行官马克·扎克伯格愿意开源价值100亿美元的Llama 3 大模型

腾讯混元推出轻量级开源模型 -A13B