2025年3月4日,智谱推出了「智谱2025开源年」的第一个模型——首个支持生成汉字的开源文生图模型CogView4。该模型在DPG-Bench基准测试中综合评分排名第一,成为开源文生图模型中的佼佼者。
CogView4具备强大的复杂语义对齐和指令跟随能力,支持任意长度的中英双语输入,能够生成任意分辨率的图像,并且在文字生成方面表现出色。它将文本编码器从纯英文的T5 encoder更换为具备双语能力的GLM-4 encoder,通过中英双语图文训练,使模型具备双语提示词输入能力。
在技术实现上,CogView4采用了二维旋转位置编码(2D RoPE)来建模图像的位置信息,并通过内插位置编码的方式支持不同分辨率的图像生成任务。模型采用Flow-matching方案进行扩散生成建模,并结合参数化的线性动态噪声规划,以适应不同分辨率图像的信噪比需求。
CogView4在架构设计上延续了上一代的Share-param DiT架构,并为文本和图像模态分别设计独立的自适应LayerNorm层,以实现模态间的高效适配。它采用多阶段训练策略,包括基础分辨率训练、泛分辨率训练、高质量数据微调以及人类偏好对齐训练,确保生成的图像具有高美感并符合人类偏好。
CogView4突破了传统固定token长度的限制,允许更高的token上限,显著减少了训练过程中的文本token冗余。当训练caption的平均长度在200-300 token时,与固定512 token的传统方案相比,CogView4减少了约50%的token冗余,并在模型递进训练阶段实现了5%-30%的效率提升。
CogView4模型支持Apache2.0协议,后续将陆续增加ControlNet、ComfyUI等生态支持,全套的微调工具包也即将推出。开源仓库地址为:https://github.com/THUDM/CogView4,模型仓库为:https://huggingface.co/THUDM/CogView4-6B 和 https://modelscope.cn/models/ZhipuAI/CogView4-6B。
|
声明:
本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!