关键词:
计算机视觉
图像修复
深度学习
扩散模型
数字图像处理
摘要:
得益于扫描技术的普及,纸质照片可以被轻易转成数字格式。由于数字图像具有易编辑和易复制特性,纸质照片数字化使得修复过程变得更加简单且高效。由于传统照片都以纸质材料为存储媒介,因此划痕和折痕一类的损伤是最常见的破损形式,这种损伤往往会导致画面的局部内容丢失,以及破坏整体上下文结构。每一张照片都具有其重要意义,因此破损照片划痕修复是一项非常重要且有意义的研究工作。
破损照片的划痕修复,主要分为人工参与修复和基于深度学习(Deep Learning,DL)自动修复的两种方式,传统人工修复的方式耗时且成本高,基于深度学习的研究工作存在划痕检测不全和填充语义不符合上下文的问题,且只是从划痕的像素位置信息去理解异常信息,没有从更高级的特征去理解划痕,因此该研究领域依然具有很大的提升空间。
为了针对性地提升破损照片划痕去除效率以及破损区域的修复质量,本文提出了一种基于图像生成模型(Image Generation Model,IGM)的破损照片划痕精细化修复算法。与以往研究工作不同,本研究充分利用照片中整体上下文和划痕特征信息,并根据这些信息去指导生成模型生成符合整体语义的内容。在生成无划痕图片之后引入画质增强和单通道图片着色算法进一步提升修复效果,以达到精细化研究的目的。根据上述的问题和预期的目标,本文开展对应的研究且主要研究内容如下:
(1)针对破损照片划痕检测不全的问题,本研究通过对照片划痕退化信息进行建模,训练并微调一个随机微分方程扩散模型(Stochastic Differential Equation Diffusion Models,SDEDM)基线,使其具有预测退化信息逆向复原和内容生成能力。训练后的模型能够将破损划痕信息嵌入到Unet预测的噪声中并逐步去噪。微调后的基线模型虽然具有一定的退化表示和还原能力但还需要进一步加强引导,以达到针对性恢复目的。现有的破损照片划痕去除工作严重依赖划痕的精确位置信息,而照片中的划痕具有不规则和强干扰特性,目标检测网络难以检测画面所有划痕,本研究进而提出一个划痕分布提取模块(Scratch Distribution Extraction,ScDE)将检测出的部分划痕内容转换为高斯分布,用于表示其高级特征,该特征可以有效地引导扩散模型反向去噪过程,使得去噪生成路径朝向无划痕的分布,最后通过对比试验和消融实验验证本研究工作的进步和贡献。定量实验和定性实验结果表明,本研究提出的算法在峰值信噪比(Peak Signal to Noise Ratio,PSNR)、结构相似度(Structural Similarity,SSIM)、可学习感知图像块相似度(Learned Perceptual Image Patch Similarity,LPIPS)和图像生成模型评估指标FID(Fréchet Inception Distance,FID)上均达到了目前最先进的(State Of The Arts,SOTA)性能,且主观质量明显高于所有对比方法。
(2)针对大多数老旧照片在扫描后存在分辨率低和画质模糊的问题,本研究提出了一个综合性修复的算法,充分利用画面已知信息进行画质及面部增强(Face Enhancement,FE)和自然化的着色,修复结果较于其它研究工作更加精细化,图像的结构特征更加清晰和真实。在此过程利用包含浅层特征提取模块、深层特征提取模块和图像的重建模块,组成的基于Swin Transformer的超分辨率(Super-Resolution,SR)模型以初步解决模糊的缺陷。在超分的基础上,利用多尺度的面部检测模型精确检测出画面中的各种范围的面部,根据生成对抗网络(Generative Adversarial Networks,GAN)先验U形深度神经网络指导新的面部生成以达到面部针对性修复和增强的目的。最后使用预训练的图像着色模型,对单通道黑白照片进行着色,使得修复效果更具艺术性。
(3)为了进一步推动此研究领域的发展,本文在研究过程中构建了一个大规模的破损照片划痕数据集(Scratches Old Photo dataset,ScrOld),此数据集涉及各类常见的摄影题材,其中包含703对划痕照片和对应的GroundTruth。本研究训练数据和测试数据均源于ScrOld数据集,其包含完整的训练集和测试集,可用于划痕目标检测和老照片修复的研究工作。
最后根据研究过程中存在的问题和思考,对这个研究领域进行了进一步的总结和展望。