LHM:阿里推出的单张图像重建出可动画化的3D人体模型
LHM是什么?
LHM是由阿里巴巴通义实验室提出的用于从单张图像重建可动画化3D人体模型的技术。解决从单张图像重建3D人体时的几何、外观和变形解耦问题,通俗地讲,也就是只需提供一张照片,几秒钟就可创建出一个3D人体模型,这个人体模型可以做各种动作,衣服、头发、面部等细节保持的很好,效果看起来非常逼真。
LHM技术亮点
多模态Transformer架构:
利用多模态Transformer架构,有效编码人体位置特征和图像特征。
通过注意力机制保留细节,尤其是衣物的几何形状和纹理。
头部特征金字塔编码方案:
提出头部特征金字塔编码方案,聚合头部区域的多尺度特征。
提升面部身份的保留和细节恢复能力。
3D高斯绘制(Gaussian Splatting):
将3D人体表示为高斯绘制,支持实时、逼真的渲染和姿态控制的动画。
LHM方法流程
输入图像:从输入图像中提取身体和头部的图像标记(tokens)。
多模态Transformer融合:利用提出的 Multimodal Body-Head Transformer (MBHT) 将3D几何身体标记与图像标记融合。
解码为高斯参数:经过基于注意力的融合过程后,几何身体标记被解码为高斯参数。
LHM实验结果
快速重建:LHM 能够在数秒内从单张图像中重建出可动画化的3D人体模型,无需后处理。
高精度与泛化能力:在合成数据集和真实场景数据集上的实验表明,LHM 在重建精度、泛化能力和动画一致性方面达到了行业领先水平。
面部和手部细节:LHM 能够生成逼真的面部和手部细节,优于现有方法。
LHM特点
快速重建:LHM能够在数秒内从单张图像中重建出可动画化的3D人体模型,无需后处理。
高精度与泛化能力:在合成数据集和真实场景数据集上的实验表明,LHM在重建精度、泛化能力和动画一致性方面达到了行业领先水平。
实时渲染与动画控制:重建的模型支持实时渲染和姿态控制的动画,适用于沉浸式AR/VR等应用场景。
LHM应用场景
元宇宙:为用户提供个性化的3D虚拟形象,增强虚拟世界的沉浸感。
影视制作:快速生成高质量的3D角色模型,提高制作效率。
游戏开发:创建逼真的3D游戏角色,提升游戏的视觉效果。
相关链接
GitHub 代码库:https://github.com/aigc3d/LHM
项目主页:https://lingtengqiu.github.io/LHM/
论文:https://arxiv.org/abs/2503.10625