PixelHacker:AI局部重绘,一种基于扩散模型的图像修复工具
PixelHacker是什么?
PixelHacker 是一种基于扩散模型的图像修复工具,专注于在修复过程中保持图像的结构和语义一致性。它通过潜在类别指导的方法,对前景和背景进行标注,并利用这些标注信息来指导修复过程。
PixelHacker 的主要特点
强大的复杂结构修复能力:能够准确捕捉和重建图像中的复杂纹理、形状和空间关系。
语义一致性:修复后的图像在颜色、对象特征和逻辑结构上与原始图像高度一致。
数据集与预训练:基于包含 1400 万个图像 - 掩码对的大型数据集进行预训练,并在开源基准上进行微调。
广泛的适用性:在 Places2、CelebA-HQ 和 FFHQ 等数据集上表现出色。
PixelHacker核心技术
潜在类别指导(Latent Categories Guidance, LCG):PixelHacker 通过构建一个包含 1400 万个图像 - 掩码对的大型数据集,并对前景和背景进行标注(前景有 116 个潜在类别,背景有 21 个潜在类别),从而在修复过程中引导模型关注图像的结构和语义信息。
线性注意力机制:模型通过两个固定大小的嵌入向量分别对潜在的前景和背景特征进行编码,并在去噪过程中通过线性注意力机制将这些特征间歇性地注入到模型中。
PixelHacker架构
PixelHacker 基于潜在扩散架构(Latent Diffusion Architecture),通过编码器将输入图像转换到潜在空间,然后在去噪过程中注入前景和背景特征,最后通过解码器重建修复后的图像。
方法与流程
数据集构建:通过标注前景和背景类别,构建了一个大规模的图像 - 掩码对数据集。
特征编码:使用固定大小的嵌入向量分别对前景和背景进行编码。
去噪过程:在扩散模型的去噪过程中,通过线性注意力机制将前景和背景特征注入到模型中,促进结构和语义的多重交互。
预训练与微调:在自建数据集上进行预训练,并在开源基准数据集上进行微调,最终得到 PixelHacker 模型。
PixelHacker应用场景
图像修复:去除广告、填补划痕、修复损坏区域。
图像编辑:背景替换、对象替换,保持整体自然感。
艺术创作:创意生成、风格转换。
文化遗产保护:修复古籍、壁画等文化遗产图像。
医疗图像处理:去除伪影、增强图像细节。
项目链接
项目主页:https://hustvl.github.io/PixelHacker/
GitHub 代码:https://github.com/hustvl/PixelHacker
论文链接:https://arxiv.org/abs/2504.20438