当前位置:»资讯 AI新闻 全球AI最前线

[行业动态] 阿里开源 单张照片秒变3D数字人:LHM技术实现高效生成与应用

         一项名为LHM(单视角输入端到端Transformer模型)的技术引发关注。该技术通过单张照片即可在两秒内生成可驱动的高斯3D数字人,为数字内容创作提供了高效解决方案。  

lhm.webp


         LHM的核心在于其创新架构。通过Vision Transformer技术,系统将单张图片拆解为小块,并结合Meta的Mae模型编码身体特征。为捕捉头部细节,团队设计了Head Tokenization方式,借助DINOv2网络提取多感受特征,结合MLP映射实现精细建模。基于人体先验模型SMPL-X,LHM通过Transformer回归出五个关键高斯特征,包括坐标偏移、透视程度、表面颜色值等,定义了3D模型的形状与动态表现能力。  
         为解决2D与3D特征融合问题,团队提出Body-Head Transformer架构,借鉴多模态Transformer设计理念,通过自适应Token和多层次Self-Attention机制,实现头部与身体特征的同步学习。这一架构有效提升了模型的细节还原度与动作流畅性。  
         LHM的应用场景广泛。用户可指定生成的3D数字人执行特定动作,如跳舞或打篮球,动作细节还原度高。在游戏领域,生成的3D资产可无缝融入渲染管线,作为游戏角色使用。未来,该技术有望与VR设备结合,助力数字人进入虚拟现实世界,实现人机交互。  
         目前,LHM代码已完全开源,并提供详细安装教程。用户可通过魔搭平台在线体验,或在GitHub获取资源。这一技术的开放性为开发者提供了更多创作可能性,也为数字内容产业注入新活力。

声明: 本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!
分享到:
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

豫ICP备2024052610号-1 ©AI闹海