文章来源:智汇AI 发布时间:2025-08-06
Follow-Your-Click是一个由来自腾讯公司(混元团队)联合清华大学和香港科技大学的研究人员共同研发的图像到视频(Image-to-Video,简称I
暂无访问Follow-Your-Click是一个由来自腾讯公司(混元团队)联合清华大学和香港科技大学的研究人员共同研发的图像到视频(Image-to-Video,简称I2V)生成模型,允许用户通过简单的点击和简短的动作提示来生成局部图像动画,从而将静态图像转换为动态视频。该模型旨在解决现有的大多数图像到视频方法并不具备局部动画的特性,只能移动整个场景。

第一帧遮罩策略:为了提高视频生成质量,框架采用了第一帧遮罩策略。在训练过程中,输入图像的潜在表示(latent representation)会被随机遮罩一部分,以增强模型学习时间相关性的能力。这种方法显著提高了生成视频的质量。运动增强模块:为了使模型能够更好地响应简短的动作提示,框架设计了一个运动增强模块。该模块通过一个新的交叉注意力层来增强模型对动作相关词汇的响应。在训练阶段,该模块使用短动作提示进行训练,而在推理阶段,这些提示被输入到运动增强模块和U-Net的交叉注意力模块中。基于光流的运动幅度控制:传统的运动强度控制依赖于调整每秒帧数(FPS)。然而,这种方法不能精确控制单个对象的运动速度。为了准确学习运动速度,框架提出了一种基于光流的运动幅度控制方法。通过计算光流的平均幅度并将其投影到位置嵌入中,可以在所有帧中一致地应用运动强度。视频生成:在推理阶段,用户点击的位置和简短的动作提示被用来生成动画视频。模型结合了用户指定的区域掩码和动作提示,生成了一系列连贯的动画帧,同时保持了输入图像的其余部分静止。