FantasyTalking:阿里巴巴一款从单张静态肖像生成逼真的动态说话肖像生成工具

AI快讯 2025-04-27 17:10更新网络

FantasyTalking是什么?

FantasyTalking 是阿里巴巴研发的一款虚拟角色动画生成工具,可从单张静态肖像生成逼真的动态说话肖像。它采用双阶段音频-视觉对齐策略,确保口型与语音精准同步,同时通过面部聚焦的交叉注意力模块和运动强度调制模块,生成自然、多样化的动画。只要应用在游戏、影视、虚拟现实上,可以快速生成高质量的虚拟角色动画。

FantasyTalking 技术原理

双阶段音频-视觉对齐策略:第一阶段采用片段级训练方案,对整个场景中的音频驱动动态进行对齐,包括参考肖像、上下文对象和背景,建立连贯的全局运动;第二阶段通过唇部追踪掩码在帧级别细化唇部运动,确保与音频信号精确同步。

面部聚焦的交叉注意力模块:取代常用的参考网络,有效保持视频中面部的一致性。

运动强度调制模块:明确控制表情和身体运动的强度,使肖像的运动不仅限于唇部动作,还能实现更自然、多样化的动画。

FantasyTalking:阿里巴巴一款从单张静态肖像生成逼真的动态说话肖像生成工具.webp

FantasyTalking 主要功能

口型同步:能够准确识别并同步虚拟角色的口型与输入语音,使角色说话时的口型与语音内容完全一致。

面部动作生成:根据语音内容和情感信息,生成眨眼、皱眉、微笑等丰富的面部动作。

全身动作生成:根据场景和情节需要,生成行走、奔跑、跳跃等全身动作。

FantasyTalking核心优势

高度逼真:利用先进的人工智能算法和深度学习技术,生成的虚拟角色动画在外观、动作和表情上都与真实人类无异。

灵活易用:提供简洁直观的用户界面和丰富的 API 接口,支持多种输入格式和输出格式,方便用户快速上手并集成到自己的项目中。

高效稳定:采用优化的算法和高效的计算架构,能在短时间内生成高质量的虚拟角色动画,同时保证系统的稳定性和可靠性。

FantasyTalking:阿里巴巴一款从单张静态肖像生成逼真的动态说话肖像生成工具.webp

FantasyTalking 应用场景

游戏开发:可用于生成游戏角色的对话动画、战斗动画等,提升游戏的视觉效果和互动性。

影视制作:帮助制作团队快速生成高质量的虚拟角色表演动画、特效动画等,降低制作成本和时间成本。

虚拟现实和增强现实:为虚拟现实和增强现实应用生成虚拟角色的交互动画、引导动画等,提升用户的沉浸感和体验效果。

项目官网:https://fantasy-amap.github.io/fantasy-talking/

Github仓库:https://github.com/Fantasy-AMAP/fantasy-talking

arXiv论文:https://arxiv.org/pdf/2504.04842

相关文章