文章来源:智汇AI 发布时间:2025-08-05
Hallo是由复旦大学、百度公司、苏黎世联邦理工学院和南京大学的研究人员共同提出的一个AI对口型肖像图像动画技术,可基于语音音频输入来驱动生成逼真且动态的肖像图
暂无访问Hallo是由复旦大学、百度公司、苏黎世联邦理工学院和南京大学的研究人员共同提出的一个AI对口型肖像图像动画技术,可基于语音音频输入来驱动生成逼真且动态的肖像图像视频。该框架采用了基于扩散的生成模型和分层音频驱动视觉合成模块,提高了音频与视觉输出之间的同步精度。Hallo的网络架构整合了UNet去噪器、时间对齐技术和参考网络,以增强动画的质量和真实感,不仅提升了图像和视频的质量,还显著增强了唇动同步的精度,并增加了动作的多样性。


分层音频驱动视觉合成:Hallo采用分层的方法来处理音频和视觉信息。这种分层结构允许模型分别处理嘴唇动作、面部表情和头部姿态,然后通过自适应权重将这些元素融合在一起。端到端扩散模型:Hallo使用基于扩散的生成模型,一种从潜在空间生成数据的方法。在训练阶段,数据逐渐被加入噪声,然后在逆过程中去除噪声以重建清晰的图像。交叉注意力机制:通过交叉注意力机制,Hallo能够在音频特征和视觉特征之间建立联系。该机制使得模型能够集中注意力于与当前音频输入最相关的面部区域。UNet去噪器:Hallo利用基于UNet的去噪器来逐步去除图像中的噪声,生成清晰的动画帧。UNet结构因其在图像分割任务中的有效性而闻名,通过跳跃连接使用低层特征图来提高生成质量。时间对齐技术:为了保持动画在时间上的连贯性,Hallo采用了时间对齐技术,这有助于确保连续帧之间的平滑过渡和一致性。参考网络(ReferenceNet):ReferenceNet用于编码全局视觉纹理信息,以实现一致且可控的角色动画,可帮助模型在生成过程中参考现有的图像,以增强输出的视觉质量。面部和音频编码器:Hallo使用预训练的面部编码器来提取肖像的身份特征,同时使用音频特征编码器(如wav2vec)来将音频信号转换为可以驱动动画运动的信息。自适应权重调整:Hallo允许调整不同视觉组件(如嘴唇、表情、姿态)的权重,以控制动画的多样性和细节。训练与推理:在训练阶段,Hallo通过优化面部图像编码器和空间交叉注意力模块的参数来提高单帧生成能力。在推理阶段,模型结合参考图像和驱动音频来生成动画视频序列。