一种基于多尺度损失监督的Transformer模型的图像去模糊方法技术

技术编号:44153544 阅读:14 留言:0更新日期:2025-01-29 10:26
本发明专利技术公开了一种基于多尺度损失监督的Transformer模型的图像去模糊方法,本发明专利技术方法包括以下步骤:首先,设计了一个全新的AttBlock模块用于提取图像的关键特征和实现图像的特征恢复,该模块在高分辨率图像仍可适用;然后,基于大气散射模型,由解码器的多尺度输出图像计算多尺度损失;最后,设计了多尺度损失监督的结构,监督模型的反向传播和参数更新的训练过程,显著提高了去模糊图像的峰值信噪比。本发明专利技术结合双监督网络和Transformer模型的特点,改进了模型的注意力模块和监督网络结构,设计了一个高性能的图像去模糊网络。经过大量实验的验证,本发明专利技术所提出的方法相较于其他的图像去模糊网络具有更好的性能指标,同时计算效率与同规模的网络相比更为高效。

【技术实现步骤摘要】

本专利技术属于深度学习和计算机视觉的领域,具体设计一种基于多尺度损失监督的transformer模型的图像去模糊方法。


技术介绍

1、近年来transformer范式在自然语言处理上表现出显著的性能提升,也广泛应用于计算机视觉等领域,但很少有适应于图像去模糊领域的transformer模型。

2、transformer模型的核心机制是其自注意力机制,即通过多头注意力模块网络整合图像的全局上下文信息,提取图像的关键特征。这一过程通常由图像块生成器、多头自注意力和前馈网络三部分构成,原理可由公式(1)表示:

3、

4、式(1)中的x∈rn×c,n为对输入图像进行分割的图像块个数,wq、wk、wv分别为查询q、关键k和值v的权重,ffn为由全连接层组成的前馈网络。但这种结构的自注意力机制存在两种缺陷:一是计算复杂度随空间分辨率的增长呈二次增长;二是全连接层难以保留空间分辨率信息。这使得transformer很难应用于高分辨率的图像去模糊任务。针对这一问题,先前方法大多采用图像分割的思路,将输入图像划分成大小为48×48的不重叠图像块,在每个图像块上应用注意力机制提取图像特征。这一方法的缺陷在于破坏了图像全局的信息关系,影响图像恢复的效果。因此,在有限的计算资源的条件下,提高去模糊图像的性能指标,是图像去模糊领域中一项重要问题。

5、图像去模糊本质是一个不适定问题,即一个有模糊图像会输出多个合理的去模糊图像。这一问题的解决通常需要强大的图像先验信息。由于卷积神经网络不仅具有轻量化的特点,还可以从大规模的数据中很好地学习先验知识,因此卷积神经网络广泛应用于图像复原的领域。但卷积神经网络受两种问题的限制:一是有限的接受域阻碍了全局信息的整合,二是静态的权重很难适应动态的输入内容。因此,将卷积神经网络与自注意力机制结合,可以有效地发挥二者的优势,避免二者的缺点。

6、基于深度学习的图像去模糊方法网络通常为编码器-解码器结构,通过堆叠的编码器逐层深入地提取图像的模糊气特征,再通过解码器逐层恢复图像的细节信息。但这种传统结构不仅造成计算量的堆叠,而且输出图像的去模糊效果普遍较差。主要的原因在于传统结构的参数更新只取决于最终的输出图像,而忽略了原始图像的其他尺度的信息。因此,结合图像的多尺度信息建立多损失监督结构,可以有效地改善这一缺陷。

7、综上,本专利技术提出一个基于多尺度损失监督的transformer模型的图像去模糊方法。具体而言,一是基于编码器-解码器结构设计包含双注意力机制的attblock模块;二是设计多尺度损失监督结构。attblock模块包含由二维卷积组成的通道注意力和空间分辨率注意力,在编码阶段从通道和空间分辨率两个维度对图像的模糊气条纹特征进行提取,在解码器阶段实现模糊气条纹特征的弱化与图像的恢复。最后,计算输出图像的两种尺度下的损失函数,监督模型训练过程中的参数更新,直到去模糊图像达到最佳性能指标。


技术实现思路

1、本专利技术提出一种基于多尺度损失监督的transformer模型的图像去模糊方法。该方法包含:1)利用设计的attblock模块获得全局上下文信息;2)利用设计的attblock模块实现特征融合和特征恢复;3)利用设计的多尺度损失监督结构优化模型的参数更新。

2、一种基于多尺度损失监督的transformer模型的图像去模糊方法,其特征在于,包括:

3、1、设计一个多卷积头注意力,用以扩大接受域,获取不同通道的图像信息。

4、2、设计一个门控卷积前馈网络,用以保留空间分辨率的信息。

5、3、设计一个多尺度损失监督结构,用以优化模型的参数更新。

本文档来自技高网...

【技术保护点】

1.一种基于多尺度损失监督的Transformer模型的图像去模糊方法,其特征在于,包括以下步骤:

2.如权利要求1所述的方法,其特征在于,每层编码器通过下采样降低图片分辨率并提取图像特征,迭代4层编码器得到最终的关键特征。

3.如权利要求1所述的方法,其特征在于,所述的AttBlock模块结构由两部分串联构成:多卷积头注意力和门控卷积前馈网络。运行过程可由公式(1)表示:

4.如权利要求1所述的方法,其特征在于,所述的图像预测的损失由大气散射模型推导而得,计算过程可由公式(2)表示:

5.如权利要求1所述的方法,其特征在于,所述的Refine由AttBlock组成,目的是对图像进行微调处理,进一步细化图像的特征。同时为了保留原始图像的纹理细节,与微调后的图像进行相加融合,从而能够计算多尺度的损失。

6.如权利要求1所述的方法,其特征在于,所述的基于多损失监督是指根据步骤C和步骤D所得的预测损失值,综合考虑二者的反向传播与参数更新:从输出层开始逆向计算每一层的梯度,并传递回前一层以调整模型参数,以寻求最小的预测损失值。</p>

7.如权利要求2所述的方法,其特征在于,所述的多卷积头注意力,关键设计在于跨通道应用自注意力机制生成隐式编码的注意力图。该网络从层归一化张量生成注意力三要素Q、K、V值并应用深度卷积对跨通道的空间信息编码,该过程可由公式(2)描述:

8.如权利要求2所述的方法,其特征在于,所述的门控卷积前馈网络,关键设计在于应用门控机制对两个1×1卷积的通道进行点乘,其中一条通道经GELU非线性激活得到图像模糊气特征的权重。同时应用深度卷积来编码跨通道的空间信息,有助于提高图像特征提取与复原的效果。该过程可由公式(3)描述:

...

【技术特征摘要】

1.一种基于多尺度损失监督的transformer模型的图像去模糊方法,其特征在于,包括以下步骤:

2.如权利要求1所述的方法,其特征在于,每层编码器通过下采样降低图片分辨率并提取图像特征,迭代4层编码器得到最终的关键特征。

3.如权利要求1所述的方法,其特征在于,所述的attblock模块结构由两部分串联构成:多卷积头注意力和门控卷积前馈网络。运行过程可由公式(1)表示:

4.如权利要求1所述的方法,其特征在于,所述的图像预测的损失由大气散射模型推导而得,计算过程可由公式(2)表示:

5.如权利要求1所述的方法,其特征在于,所述的refine由attblock组成,目的是对图像进行微调处理,进一步细化图像的特征。同时为了保留原始图像的纹理细节,与微调后的图像进行相加融合,从而能够计算多尺度的损失。

<...

【专利技术属性】
技术研发人员:储月谢阳春朱松豪
申请(专利权)人:南京邮电大学通达学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1