卷积神经网络用于图形图像增强探讨

 新闻资讯     |      2020-01-10

随着数字图像成像设备技术的不断进步,通过相机、手机、视频监控等途径获取的图像数量呈现出指数级增长的趋势,图像已成为人们感知世界以及与外界交换信息的重要手段。然而,在图像的获取、传输和存储过程中,现实中的复杂成像因素(如噪声、低光照、相机抖动、物体运动等)将导致图像质量的退化(如噪声、模糊、失真等),从而降低图像的视觉感知质量。近年来,通过探索合理的复原模型和高效的复原方法恢复高质量清晰图像,已成为学术界和企业界的研究热点。

数字图像在数字化和传输过程中,常常受到成像设备与外部环境噪声干扰等影响,引入了不同类型的复杂噪声。图像的去噪任务要求在尽可能去除图像中噪声的同时,还应保持原有图像的边缘、纹理等细节结构信息。与此同时,数字图像在采集、转移和保存过程中,会以较低分辨率的形式存在,从而影响了局部细节的完整程度和图像信息的丰富度。相比于硬件设备的改良成本过高及其发展的局限性,图像超分辨率算法实际上更具研究价值。而对于普遍存在的图像模糊问题,如何有效估计模糊过程、处理噪声和估计误差等,将对恢复高质量清晰的图像至关重要。

目前,以图像去噪、超分辨率、图像去模糊为代表的图像复原任务具有广泛的应用背景,如手机移动端的日常生活应用,用于刑侦调查和取证的人脸、车牌图像复原技术,以及在医学图像、遥感与卫星成像领域的相关应用等。此外,低质量图像的复原与增强也为高层语义分析任务奠定了基础。

近年来,多域视觉数据的日益普及和广泛使用,为计算机视觉领域的研究和应用带来了新的挑战与机遇。多域视觉学习的任务层出不穷,既包含基于多域视觉数据的引导图像增强,也包括风格迁移、人脸属性编辑、基于文本的图像生成等图像翻译任务。多域视觉增强与合成通过对多域视觉数据间的关联与互补特性进行建模,可为图像增强与图像合成提供新的可利用信息,因而具有重要的研究意义和实用价值,获得了国内外学者的广泛关注。

神经网络在图像去噪和复原中的应用至少可追溯至2002年,Suzuki等提出,可以通过学习多层神经网络来进行图像去噪或边缘增强。2009年,Jain等提出了完全卷积的卷积神经网络(Convolutional Neural 优维斯 Networks,CNN)用于去噪,并发现CNN可得到与小波和马尔科夫随机场方法相当,甚至更优越的性能。随后,2012年,Xie等将稀疏编码和深度网络训练与去噪自动编码器结合用于图像去噪。随着训练数据和计算能力的快速增长,多层感知器网络(Multi-Layer Perceptron,MLP)在去噪等问题上也逐渐取得了与三维块匹配算法(Block Matching 3D,BM3D)方法相当或更高的性能。2014年,施密特(Schmidt)等针对图像复原问题,提出了基于逐次迭代学习的判别学习模型—基于半二次分裂算法的级联收缩场(Cascade of Shrinkage Fields,CSF),该方法通过将预测过程展开为迭代学习算法,从训练数据中学习阶段模型参数。2015年,Chen等从反应扩散方程的角度出发,提出了非线性反应扩散(Trainable Nonlinear Reaction Diffusion,TNRD)模型,对每次迭代的滤波器和响应函数进行学习,并从递归神经网络的角度对模型进行了解释。

受CSF和TNRD启发,Zhang等设计了一种基于卷积神经网络的深度去噪网络---DnCNN(Denoising Convolutional Neural Network)。该模型通过端到端的残差学习,从函数回归角度用卷积神经网络将噪声从噪声图像中分离出来,取得了显著优于其他方法的去噪结果。与此同时,一系列基于网络结构的改进工作被相继提出。REDNet(Residual Encoder-Decoder Network)采用基于对称跳跃链接的深度卷积编码一解码框架,使得在反向过程中,信息可直接从顶层传递到底层;MemNet(Memory Network)进一步提出了一种长期记忆模型用于图像去噪;MWCNN(Multi-level Wavelet CNN)则提出了一种多级小波CNN框架,通过将离散小波变换与卷积网络结合,有利于恢复图像细节。

上述方法通常需要针对不同噪声水平单独训练模型,不仅缺乏企业培训灵活性,更无法应用于退化过程更加复杂的真实噪声图像。Zhang等将噪声图作为网络输入,提出了一种快速、灵活的去噪模型—FFDNet(Fast and Flexible Denoising Network)。该模型可同时处理不同的噪声水平及空间相关噪声。核预测网络(Kernel Prediction Networks,KPN)的工作同样表明,将输入图像的噪声水平作为网络输入,得到的网络将会对更宽的噪声水平范围具有更好的鲁棒性和泛化能力。

在非盲去噪任务中,需要人为设定噪声水平。然而,实际相机成像过程中引入的噪声,通常是与通道和空间相关的。针对真实相机噪声图像的盲去噪任务仍然需要深入研究。2019年,Guo等提出了一种结合噪声估计和非盲去噪模型的盲去噪方法。通过考虑信号依赖噪声和相机图像信号处理(Image Signal Process,ISP)对噪声的影响,将合成噪声与真实噪声图像一起用于网络训练,能在真实噪声图像上实现良好的去噪效果和泛化能力。布鲁克斯(Brooks)等根据ISP流程,将RGB图反向处理得到RAW图(尚未处理的原始图像,在RAW域进行去噪。贾罗恩斯利(Jaroensri)等则通过对相机成像过程进行仿真来生成训练数据,从而进行真实图像去噪任务。

基于判别学习的卷积网络图像去噪模型近年来也取得了长足发展。然而,对现有模型通常需要基于成对的清晰图和噪声图进行网络训练。在真实应用中,如CT、核磁共振成像(MRI)、显微镜图像等,通常难以获取大量的清晰图像,大大限制了卷积去噪网络的实用性。2018年,莱赫蒂宁(Lehtinen)等提出了Noise2Noise模型,在无需清晰图像的前提下,通过使用服从同一分布的噪声图像对实现了图像去噪。