5月14日,腾讯宣布旗下的混元文生图大模型全面升级并对外开源,目前已在Hugging Face平台及Github上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。这是业内首个中文原生的DiT架构文生图开源模型,支持中英文双语输入及理解,参数量15亿。升级后的混元文生图大模型采用了与sora一致的DiT架构,不仅可支持文生图,也可作为视频等多模态视觉生成的基础。
“混元DiT”官方入口
“混元DiT”(Hunyuan-DiT)的主要功能 双语文本到图像生成:混元DiT能够根据中文或英文的文本提示生成图像,这使得它在跨语言的图像生成任务中具有广泛的应用潜力。
细粒度中文元素理解:模型特别针对中文进行了优化,可以更好地理解和生成与中国传统文化相关的元素,例如中国古诗、中国传统服饰、中国节日等。
长文本处理能力:支持长达256个标记的文本输入,使得DiT能够理解和生成与复杂长文本描述相匹配的图像。
多尺寸图像生成:Hunyuan-DiT能够在多种尺寸比例下生成高质量的图像,满足从社交媒体帖子到大尺寸打印等不同用途的需求。
多轮对话和上下文理解:通过与用户进行多轮对话,混元DiT能够根据对话历史和上下文信息生成和迭代图像,这增强了交互性和创造性。
图像与文本的高一致性:Hunyuan-DiT生成的图像在内容上与输入的文本提示高度一致,确保了图像能够准确反映文本的意图和细节。艺术性和创意性:混元DiT不仅能够生成常见的图像,还能够捕捉文本中的创意描述,生成具有艺术性和创意性的图像作品。
“混元DiT”的技术框架 双文本编码器:混元DiT结合了双语的CLIP模型和多语言的T5编码器,以增强对输入文本的理解和编码能力。CLIP模型因其强大的图像和文本关联能力而被选用,而T5模型则因其在多语言和文本理解方面的能力。 变分自编码器(VAE):使用预训练的VAE将图像压缩到低维潜在空间,这有助于模型学习数据分布,并且VAE的潜在空间对生成质量有重要影响。 扩散模型:基于扩散Transformer,混元DiT使用扩散模型来学习数据分布。该模型通过交叉注意力机制将文本条件与扩散模型结合。 改进的生成器:与基线DiT相比,扩散Transformer有若干改进,例如使用自适应层归一化(AdaNorm)来加强细粒度文本条件的执行。 位置编码:混元DiT采用旋转位置嵌入(RoPE)来同时编码绝对位置和相对位置依赖性,支持多分辨率训练和推理。 多模态大型语言模型(MLLM):用于图像-文本对的原始标题的重构,以提高数据质量。MLLM经过微调,能够生成包含世界知识的结构化标题。 数据管道:包括数据获取、解释、分层和应用。通过一个称为“数据车队”的迭代过程来检查新数据的有效性。 后训练优化:在推理阶段进行优化,以降低部署成本,包括ONNX图优化、内核优化、操作融合等。
|