北京智谱华章科技有限公司近日宣布,其研发的新一代文生图模型CogView3-Plus已正式开源。该模型在文本到图像的转换领域取得了显著进展,其性能在人工评估中超越了目前最先进的开源模型SDXL,准确度提高了77.0%,同时推理时间仅为SDXL的十分之一。 CogView3-Plus基于级联扩散模型构建,通过三个阶段生成高分辨率图像。首先,利用标准扩散过程生成512x512像素的低分辨率图像;其次,通过中继扩散过程进行2倍超分辨率生成,得到1024x1024像素的图像;最后,再次使用中继扩散迭代,生成2048x2048像素的高分辨率图像。 智谱科技表示,CogView3-Plus引入了最新的DiT框架,并采用了Zero-SNR扩散噪声调度以及文本-图像联合注意力机制,有效降低了训练和推理成本。此外,该模型支持在512至2048像素区间内灵活生成不同分辨率的图像。 智谱科技还提供了CogView3-Plus的多个开源地址,包括GitHub和Hugging Face平台,以便研究人员和开发者能够快速开始使用和研究。公司计划进一步开发基于Diffusers框架的微调方案,并适配ControlNet,以推动该领域的进一步发展。
开源仓库地址:https://github.com/THUDM/CogView3Plus 开源模型仓库:https://huggingface.co/THUDM/CogView3-Plus-3Bhttps://modelscope.cn/models/ZhipuAI/CogView3-Plus-3B
|