一项名为LHM(单视角输入端到端Transformer模型)的技术引发关注。该技术通过单张照片即可在两秒内生成可驱动的高斯3D数字人,为数字内容创作提供了高效解决方案。
LHM的核心在于其创新架构。通过Vision Transformer技术,系统将单张图片拆解为小块,并结合Meta的Mae模型编码身体特征。为捕捉头部细节,团队设计了Head Tokenization方式,借助DINOv2网络提取多感受特征,结合MLP映射实现精细建模。基于人体先验模型SMPL-X,LHM通过Transformer回归出五个关键高斯特征,包括坐标偏移、透视程度、表面颜色值等,定义了3D模型的形状与动态表现能力。
为解决2D与3D特征融合问题,团队提出Body-Head Transformer架构,借鉴多模态Transformer设计理念,通过自适应Token和多层次Self-Attention机制,实现头部与身体特征的同步学习。这一架构有效提升了模型的细节还原度与动作流畅性。
LHM的应用场景广泛。用户可指定生成的3D数字人执行特定动作,如跳舞或打篮球,动作细节还原度高。在游戏领域,生成的3D资产可无缝融入渲染管线,作为游戏角色使用。未来,该技术有望与VR设备结合,助力数字人进入虚拟现实世界,实现人机交互。
目前,LHM代码已完全开源,并提供详细安装教程。用户可通过魔搭平台在线体验,或在GitHub获取资源。这一技术的开放性为开发者提供了更多创作可能性,也为数字内容产业注入新活力。
|
声明:
本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!