FantasyTalking:阿里巴巴一款从单张静态肖像生成逼真的动态说话肖像生成工具
FantasyTalking是什么?
FantasyTalking 是阿里巴巴研发的一款虚拟角色动画生成工具,可从单张静态肖像生成逼真的动态说话肖像。它采用双阶段音频-视觉对齐策略,确保口型与语音精准同步,同时通过面部聚焦的交叉注意力模块和运动强度调制模块,生成自然、多样化的动画。只要应用在游戏、影视、虚拟现实上,可以快速生成高质量的虚拟角色动画。
FantasyTalking 技术原理
双阶段音频-视觉对齐策略:第一阶段采用片段级训练方案,对整个场景中的音频驱动动态进行对齐,包括参考肖像、上下文对象和背景,建立连贯的全局运动;第二阶段通过唇部追踪掩码在帧级别细化唇部运动,确保与音频信号精确同步。
面部聚焦的交叉注意力模块:取代常用的参考网络,有效保持视频中面部的一致性。
运动强度调制模块:明确控制表情和身体运动的强度,使肖像的运动不仅限于唇部动作,还能实现更自然、多样化的动画。
FantasyTalking 主要功能
口型同步:能够准确识别并同步虚拟角色的口型与输入语音,使角色说话时的口型与语音内容完全一致。
面部动作生成:根据语音内容和情感信息,生成眨眼、皱眉、微笑等丰富的面部动作。
全身动作生成:根据场景和情节需要,生成行走、奔跑、跳跃等全身动作。
FantasyTalking核心优势
高度逼真:利用先进的人工智能算法和深度学习技术,生成的虚拟角色动画在外观、动作和表情上都与真实人类无异。
灵活易用:提供简洁直观的用户界面和丰富的 API 接口,支持多种输入格式和输出格式,方便用户快速上手并集成到自己的项目中。
高效稳定:采用优化的算法和高效的计算架构,能在短时间内生成高质量的虚拟角色动画,同时保证系统的稳定性和可靠性。
FantasyTalking 应用场景
游戏开发:可用于生成游戏角色的对话动画、战斗动画等,提升游戏的视觉效果和互动性。
影视制作:帮助制作团队快速生成高质量的虚拟角色表演动画、特效动画等,降低制作成本和时间成本。
虚拟现实和增强现实:为虚拟现实和增强现实应用生成虚拟角色的交互动画、引导动画等,提升用户的沉浸感和体验效果。
项目官网:https://fantasy-amap.github.io/fantasy-talking/
Github仓库:https://github.com/Fantasy-AMAP/fantasy-talking
arXiv论文:https://arxiv.org/pdf/2504.04842