Stability AI最强大的开源图像生成 SD3已在 HuggingFace 上线

小哪吒

Hugging Face地址：https://huggingface.co/stabilityai/stable-diffusion-3-medium

人工智能领域的领先企业Stability AI刚刚发布了其最新开源图像生成器Stable Diffusion 3（SD3），这是目前最强大的开源、无审查、可定制的文本到图像转换模型。SD3在免费非商业许可下发布，用户可以通过Hugging Face获取，同时也可以应用于Stability AI的API和应用程序，例如Stable Assistant和Stable Artisan。商业用户被鼓励联系Stability AI以获取许可详细信息。

在官方声明中，Stability AI表示：“Stable Diffusion 3 Medium是我们迄今为止最先进的文本到图像开放模型，包含20亿个参数。该模型体积适中，适合在消费级PC和笔记本电脑以及企业级GPU上运行，其尺寸非常适合成为文本到图像模型的新标准。”

Decrypt网站可以访问该模型，但Stability AI共享的ComfyUI工作流程需要一些尚未可用的节点，且与SD1.5和SDXL兼容的常规工作流程不适用于SD3。Reddit上有文章解释了如何使用StableSwarmUI来运行SD3。

SD3的主要功能包括照片级真实感、即时遵循、排版、资源效率和微调能力。它克服了手部和面部的常见伪影问题，无需复杂工作流程即可提供高质量的图像。此外，该模型能够理解涉及空间关系、构图元素、动作和风格的复杂提示。得益于Stability AI的Diffusion Transformer架构，SD3在生成无伪影和拼写错误的文本方面表现出色，并且能够从小型数据集中吸收细微细节，非常适合定制。

SD3于2024年2月首次亮相，并于2024年4月通过API提供。Stability AI与Nvidia合作，提升了所有稳定扩散模型的性能，TensorRT优化的模型版本将提供卓越的性能，过去的优化可将性能提高50%。

Stability AI进行了内部和外部测试，并实施了多项保障措施，以防止不良行为者滥用SD3 Medium。运行SD3的最低硬件要求为5GB至16GB GPU VRAM，具体取决于型号及其大小。SD3在此型号中使用了不同的编码技术，可以生成更好的图像并更好地理解文本提示。它还将能够生成文本，但需要较大的计算能力。

Stability AI告诉Decrypt：“对于SD3 Medium（20亿个参数），我们建议使用16GB GPU VRAM以获得更高的速度，但VRAM较低的用户仍然可以使用至少5GB GPU VRAM来运行它。”该公司补充说，“SD3具有模块化结构，可以与所有三个文本编码器、较小版本的三个文本编码器或仅与其中一个子集一起使用。大部分VRAM用于文本编码器。还有可能在CPU中运行最大的文本编码器，即T5-XXL。这意味着运行SD3 2B的最低要求介于SD1.5和SDXL要求之间。对于微调，这也取决于您如何处理文本编码器。”

Stability补充说：“不需要精炼器。”此功能简化了生成过程并提高了模型的整体性能。SDXL通过发布两个应该相继运行的模型来引入此功能，基础模型生成整体图像，精炼器确保添加小细节。然而，Stable Diffusion社区很快就放弃了精炼器并对基础模型进行了微调，使其能够自行生成详细图像。

尽管该公司的财务状况和未来前景存在争议，但Stability AI明确表示，这很可能不是它的最后一项业务。“Stability AI正在积极迭代改进我们的图像模型，并专注于视频、音频和语言的多模式工作，”发言人说。

除了Stable Diffusion，Stability AI还发布了视频、文本和音频的开源模型。它还拥有其他图像生成技术，如Stable Cascade和Deepfloyd IF。Stability AI计划根据用户反馈不断改进SD3 Medium。

“我们的目标是为AI生成的艺术创造力树立新标准，并使Stable Diffusion 3 Medium成为专业人士和业余爱好者的重要工具。”Stability AI表示。