文章来源:智汇AI 发布时间:2025-08-05
Follow-Your-Emoji是由香港科技大学、腾讯混元和清华大学的研究人员推出的一个基于扩散模型的人像动画框架,利用扩散模型为参考肖像添加目标表情序列,实
暂无访问Follow-Your-Emoji是由香港科技大学、腾讯混元和清华大学的研究人员推出的一个基于扩散模型的人像动画框架,利用扩散模型为参考肖像添加目标表情序列,实现动态动画效果。该技术通过表情感知标志点精确对齐表情与肖像,避免身份信息泄露,同时使用面部精细损失函数强化模型对微妙表情变化的捕捉能力。Follow-Your-Emoji支持多种风格的人像动画,包括真人、卡通、雕塑甚至动物,展现出高度的控制性和表现力。

基于扩散模型的框架:使用扩散模型(Stable Diffusion)作为基础,这是一种先进的深度学习模型,能够生成高质量的图像和视频内容。表情感知标志点(Expression-Aware Landmark):利用MediaPipe等工具从动态视频中提取3D关键点,然后将其投影到2D平面,形成用于指导动画过程的表情感知标志点。这些标志点特别关注于表情变化的关键区域,如眼睛(瞳孔点)和嘴巴,以实现更精确的表情同步。面部精细损失(Facial Fine-Grained Loss Function):引入一种新的损失函数,通过面部遮罩和表情遮罩来指导模型在训练过程中更加关注面部表情的细节。该损失函数通过计算预测结果与真实结果在遮罩区域内的差异,帮助模型学习如何更好地捕捉微妙的表情变化。多风格适应性:框架设计为能够适应不同风格的肖像,无论是真人、卡通、雕塑还是动物,都能够实现自然的动画效果。渐进式生成策略:为了生成长期动画,采用从粗糙到精细的渐进式生成策略,首先生成关键帧,然后通过插值生成中间帧,以保持动画的连贯性和稳定性。时间注意力机制:在UNet网络中加入时间注意力层,以保持动画帧之间的时间一致性和动态连贯性。预训练与微调:使用大量的表达训练数据集对模型进行预训练,然后针对特定的动画任务进行微调,以提高模型的表现力和准确性。数据集和基准建设:团队构建了EmojiBench基准,包含多种风格和表情的肖像视频,用于评估和验证模型的性能。推理与动画生成:在推理阶段,模型结合表情感知标志点和时间注意力机制,生成动态的肖像动画,同时保持参考肖像的身份特征。用户控制与定制:用户可以通过提供不同的输入表情序列来控制动画的输出,实现高度定制化的动画效果。