文章来源:智汇AI 发布时间:2025-08-06
PuLID是字节跳动的团队开源的一种个性化文本到图像生成技术,通过对比对齐和快速采样方法,实现了无需调整模型的高效ID定制,轻松实现图像换脸效果。
暂无访问PuLID是由字节跳动的团队开源的一种个性化文本到图像生成技术,通过对比对齐和快速采样方法,实现了无需调整模型的高效ID定制,轻松实现图像换脸效果。该技术能够保持高身份(ID)保真度,同时最大限度地减少对原始图像风格和背景的干扰,支持用户通过文本提示轻松编辑图像,生成逼真且个性化的图像结果。PuLID支持个性化编辑,允许用户通过简单提示调整人物属性,且易于大规模应用,适用于艺术创作、虚拟形象定制和影视制作等多个领域。


双分支训练框架:PuLID采用一个结合了标准扩散模型和快速Lightning T2I分支的双分支训练框架。这种设计允许模型在生成图像时同时优化身份定制和原始图像风格的保持。对比对齐:通过构建具有相同文本提示和初始潜在条件的两条生成路径(一条包含ID插入,另一条不包含),PuLID使用对比对齐损失来语义上对齐这两条路径的UNet特征,指导模型如何在不干扰原始模型行为的情况下嵌入ID信息。快速采样:PuLID利用快速采样技术,从纯噪声状态快速生成高质量的图像,这为精确计算ID损失提供了条件,因为生成的图像更接近真实世界数据的分布。精确ID损失:在ID插入后,PuLID使用生成的高质量初始图像(x0)来提取面部嵌入,并与真实面部嵌入计算准确的ID损失,确保生成的图像在身份特征上的高保真度。校准损失:包括语义校准损失和布局校准损失,确保模型对文本提示的响应在两条路径中保持一致,从而保持风格、布局的一致性,并允许个性化编辑。端到端优化:PuLID的训练目标是联合优化扩散损失、对齐损失和ID损失,以训练出一个既能够生成高质量图像,又能保持高ID保真度的模型。