本技术介绍了一种融合CNN与Transformer的图像去模糊技术,通过使用公开数据集构建训练、验证和测试集。该技术在编码阶段采用逆残差快速傅里叶变换来提取图像特征,进而实现图像去模糊的效果。
背景技术
图像去模糊是计算机视觉领域中的一个经典挑战,旨在消除模糊影响以复原清晰的视觉数据。图像模糊问题源于多重因素,比如设备震动、聚焦不准或目标快速移动等,这些都会导致图片清晰度下降,对观感产生重大负面影响,并且对后续的视觉处理工作,例如物体识别、目标追踪及图像分析等,构成一系列的阻碍。对于这种问题,探索高效的方法来校正图像模糊,从而重获高解析度影像,成为了该领域内亟待解决的关键科研问题。
随着深度学习的发展,卷积神经网络(CNN)在计算机视觉任务中发挥着重要的作用。目前基于CNN的方法采用端到端方式,设计了不同的框架来学习模糊图像与清晰图像之间的关系,而不进行模糊核的估计,可以直接从模糊图像中还原出清晰的图像。尽管如此,由于卷积算子的感受野有限,导致CNN无法建模远距离像素依赖关系。与对局部建模的卷积运算不一样,Transformer能够缩放点积促进远程特征学习,对全局上下文进行建模,它们已被证明是许多高级视觉任务中的有效方法,基于Transformer的方法也比基于CNN的方法取得了更好的性能。Transformer的自注意力机制不能很好的捕获局部模糊特征,而局部模糊图像经常存在真实的模糊图像中,导致去模糊的图像细节缺失。此外,目前的去模糊Transformer网络计算复杂度高、参数量大,要实现功效和效率的最佳平衡,是一项颇具挑战的任务。
实现思路