智谱开源新一代文生图模型 CogView3-Plus

小哪吒

北京智谱华章科技有限公司近日宣布，其研发的新一代文生图模型CogView3-Plus已正式开源。该模型在文本到图像的转换领域取得了显著进展，其性能在人工评估中超越了目前最先进的开源模型SDXL，准确度提高了77.0%，同时推理时间仅为SDXL的十分之一。

CogView3-Plus基于级联扩散模型构建，通过三个阶段生成高分辨率图像。首先，利用标准扩散过程生成512x512像素的低分辨率图像；其次，通过中继扩散过程进行2倍超分辨率生成，得到1024x1024像素的图像；最后，再次使用中继扩散迭代，生成2048x2048像素的高分辨率图像。

智谱科技表示，CogView3-Plus引入了最新的DiT框架，并采用了Zero-SNR扩散噪声调度以及文本-图像联合注意力机制，有效降低了训练和推理成本。此外，该模型支持在512至2048像素区间内灵活生成不同分辨率的图像。

智谱科技还提供了CogView3-Plus的多个开源地址，包括GitHub和Hugging Face平台，以便研究人员和开发者能够快速开始使用和研究。公司计划进一步开发基于Diffusers框架的微调方案，并适配ControlNet，以推动该领域的进一步发展。

开源仓库地址：https://github.com/THUDM/CogView3Plus 开源模型仓库：https://huggingface.co/THUDM/CogView3-Plus-3Bhttps://modelscope.cn/models/ZhipuAI/CogView3-Plus-3B