文章来源:智汇AI 发布时间:2025-08-07
ActAnywhere是一个由斯坦福大学和Adobe Research的研究人员共同开发的视频生成模型,旨在解决视频背景生成的问题,特别是在需要将前景主体(如人
暂无访问ActAnywhere是一个由斯坦福大学和Adobe Research的研究人员共同开发的视频生成模型,旨在解决视频背景生成的问题,特别是在需要将前景主体(如人物)与新背景无缝结合的场景中。这个模型适用于电影制作和视觉效果(VFX)领域,它能够自动化地创建与前景主体运动相协调的视频背景,从而节省了传统手动合成过程中的大量时间和精力。
官方项目主页:https://actanywhere.github.io/
Arxiv论文地址:https://arxiv.org/abs/2401.10822
ActAnywhere通过以下的步骤和组件,能够生成具有高度现实感和时间连贯性的视频背景:
数据准备:使用前景主体分割算法(如Mask R-CNN)从输入视频中获取前景主体的分割序列(S)和对应的掩膜(M)。引入一个条件帧(c),这是一个描述所需生成背景的图像,可以是背景图像或包含前景和背景的复合帧。特征编码:使用预训练的变分自编码器(VAE)将前景主体分割序列编码为潜在特征(ˆS)。将前景掩膜序列下采样并与潜在特征对齐,以匹配特征维度。扩散过程:在训练过程中,使用VAE编码器将原始视频帧编码为潜在表示(Z),然后在正向扩散过程中逐渐添加高斯噪声。在测试时,潜在表示(Z0)初始化为高斯噪声,并通过逆向扩散过程逐步去噪,以生成最终的视频帧。时间注意力机制:在去噪的U-Net中插入一系列运动模块,这些模块包含特征投影层和1D时间自注意力块,以实现时间上的连贯性。条件帧的特征(Fc)通过CLIP图像编码器提取,并注入到U-Net的交叉注意力层中,以确保生成的视频背景与条件帧保持一致。训练目标:使用简化的扩散目标进行训练,即预测添加的噪声。通过最小化预测噪声与真实噪声之间的差异来训练模型。数据增强和处理:在训练过程中,为了处理不完美的分割掩膜,应用随机矩形裁剪和图像腐蚀操作。在测试时,通过随机丢弃分割、掩膜或条件帧来实现无分类器的引导。模型训练:在大规模人类-场景交互视频数据集(HiC+)上进行训练,该数据集包含240万个视频。使用AdamW优化器,固定学习率为3e-5,冻结共享的VAE和CLIP编码器,微调U-Net。生成过程:在测试时,将前景主体序列和条件帧输入到训练好的模型中,模型将生成与前景主体运动相协调的视频背景。