阿里开源单张照片秒变3D数字人：LHM技术实现高效生成与应用

小哪吒

一项名为LHM（单视角输入端到端Transformer模型）的技术引发关注。该技术通过单张照片即可在两秒内生成可驱动的高斯3D数字人，为数字内容创作提供了高效解决方案。

      LHM的核心在于其创新架构。通过Vision Transformer技术，系统将单张图片拆解为小块，并结合Meta的Mae模型编码身体特征。为捕捉头部细节，团队设计了Head Tokenization方式，借助DINOv2网络提取多感受特征，结合MLP映射实现精细建模。基于人体先验模型SMPL-X，LHM通过Transformer回归出五个关键高斯特征，包括坐标偏移、透视程度、表面颜色值等，定义了3D模型的形状与动态表现能力。
      为解决2D与3D特征融合问题，团队提出Body-Head Transformer架构，借鉴多模态Transformer设计理念，通过自适应Token和多层次Self-Attention机制，实现头部与身体特征的同步学习。这一架构有效提升了模型的细节还原度与动作流畅性。
      LHM的应用场景广泛。用户可指定生成的3D数字人执行特定动作，如跳舞或打篮球，动作细节还原度高。在游戏领域，生成的3D资产可无缝融入渲染管线，作为游戏角色使用。未来，该技术有望与VR设备结合，助力数字人进入虚拟现实世界，实现人机交互。
      目前，LHM代码已完全开源，并提供详细安装教程。用户可通过魔搭平台在线体验，或在GitHub获取资源。这一技术的开放性为开发者提供了更多创作可能性，也为数字内容产业注入新活力。