Stability AI与 Arm 合作发布可在智能手机上运行的音频生成模型

小哪吒

      2025年5月14日，Stability AI 宣布与 Arm 公司合作，正式开源 Stable Audio Open Small 模型。这一文本转音频模型拥有3.41亿参数，经过优化后可完全在 Arm CPU 上运行，能够在智能手机上快速生成高质量的音频内容。
   Stable Audio Open Small 专为生成短音频样本而设计，能够在不到8秒的时间内生成长达11秒的音频片段。该模型基于行业领先的 Stable Audio Open 技术开发，体积更小、速度更快，同时保持了出色的输出质量和快速响应能力。此次发布是继双方在世界移动通信大会上宣布合作后的又一重要进展，旨在将生成音频创作引入智能手机，为开发者和创作者提供更强大的工具。
   Stable Audio Open Small 的技术优势在于其轻量化设计和高效的计算能力。它利用 Arm 的 KleidiAI 库进行了优化，能够在边缘设备上高效运行，降低了计算成本，同时无需复杂的硬件支持。该模型适用于生成短音频样本、音效和制作元素，例如鼓点循环、拟音、乐器片段和环境音效等，特别适合在移动设备和边缘设备上进行实时生成和快速响应。
   Stable Audio Open Small 现已免费提供给商业和非商业用途，遵循 Stability AI 社区许可证授权。用户可以在 [arXiv](https://arxiv.org/abs/2505.08175) 上查阅相关论文，在 [Hugging Face](https://huggingface.co/stabilityai/stable-audio-open-small) 下载模型权重，并在 [GitHub](https://github.com/Stability-AI/stable-audio-tools) 获取代码。此外，Arm 还提供了详细的部署指导和学习路径，帮助开发者更好地在 Arm 硬件上部署和使用该模型。