当前位置:»资讯 AI新闻 全球AI最前线

[行业动态] Stability AI最强大的开源图像生成 SD3已在 HuggingFace 上线

sd3_medium-1200x702.png


人工智能领域的领先企业Stability AI刚刚发布了其最新开源图像生成器Stable Diffusion 3(SD3),这是目前最强大的开源、无审查、可定制的文本到图像转换模型。SD3在免费非商业许可下发布,用户可以通过Hugging Face获取,同时也可以应用于Stability AI的API和应用程序,例如Stable Assistant和Stable Artisan。商业用户被鼓励联系Stability AI以获取许可详细信息。

在官方声明中,Stability AI表示:“Stable Diffusion 3 Medium是我们迄今为止最先进的文本到图像开放模型,包含20亿个参数。该模型体积适中,适合在消费级PC和笔记本电脑以及企业级GPU上运行,其尺寸非常适合成为文本到图像模型的新标准。”

Decrypt网站可以访问该模型,但Stability AI共享的ComfyUI工作流程需要一些尚未可用的节点,且与SD1.5和SDXL兼容的常规工作流程不适用于SD3。Reddit上有文章解释了如何使用StableSwarmUI来运行SD3。

SD3的主要功能包括照片级真实感、即时遵循、排版、资源效率和微调能力。它克服了手部和面部的常见伪影问题,无需复杂工作流程即可提供高质量的图像。此外,该模型能够理解涉及空间关系、构图元素、动作和风格的复杂提示。得益于Stability AI的Diffusion Transformer架构,SD3在生成无伪影和拼写错误的文本方面表现出色,并且能够从小型数据集中吸收细微细节,非常适合定制。

SD3于2024年2月首次亮相,并于2024年4月通过API提供。Stability AI与Nvidia合作,提升了所有稳定扩散模型的性能,TensorRT优化的模型版本将提供卓越的性能,过去的优化可将性能提高50%。

Stability AI进行了内部和外部测试,并实施了多项保障措施,以防止不良行为者滥用SD3 Medium。运行SD3的最低硬件要求为5GB至16GB GPU VRAM,具体取决于型号及其大小。SD3在此型号中使用了不同的编码技术,可以生成更好的图像并更好地理解文本提示。它还将能够生成文本,但需要较大的计算能力。

Stability AI告诉Decrypt:“对于SD3 Medium(20亿个参数),我们建议使用16GB GPU VRAM以获得更高的速度,但VRAM较低的用户仍然可以使用至少5GB GPU VRAM来运行它。”该公司补充说,“SD3具有模块化结构,可以与所有三个文本编码器、较小版本的三个文本编码器或仅与其中一个子集一起使用。大部分VRAM用于文本编码器。还有可能在CPU中运行最大的文本编码器,即T5-XXL。这意味着运行SD3 2B的最低要求介于SD1.5和SDXL要求之间。对于微调,这也取决于您如何处理文本编码器。”

Stability补充说:“不需要精炼器。”此功能简化了生成过程并提高了模型的整体性能。SDXL通过发布两个应该相继运行的模型来引入此功能,基础模型生成整体图像,精炼器确保添加小细节。然而,Stable Diffusion社区很快就放弃了精炼器并对基础模型进行了微调,使其能够自行生成详细图像。

尽管该公司的财务状况和未来前景存在争议,但Stability AI明确表示,这很可能不是它的最后一项业务。“Stability AI正在积极迭代改进我们的图像模型,并专注于视频、音频和语言的多模式工作,”发言人说。

除了Stable Diffusion,Stability AI还发布了视频、文本和音频的开源模型。它还拥有其他图像生成技术,如Stable Cascade和Deepfloyd IF。Stability AI计划根据用户反馈不断改进SD3 Medium。

“我们的目标是为AI生成的艺术创造力树立新标准,并使Stable Diffusion 3 Medium成为专业人士和业余爱好者的重要工具。”Stability AI表示。

声明: 本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!
分享到:
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

豫ICP备2024052610号-1 ©AI闹海