当前位置: 首页 > 专利查询>合肥学院专利>正文

基于Transformer和生成式对抗网络的水下图像增强方法技术

技术编号:38002731 阅读:12 留言:0更新日期:2023-06-30 10:16
本发明专利技术涉及基于Transformer和生成式对抗网络的水下图像增强方法,与现有技术相比解决了难以针对水下图像进行增强处理的缺陷。本发明专利技术包括以下步骤:水下图像的获取和预处理;水下图像增强模型的构建;水下图像增强模型的训练;待增强水下图像的获取;水下图像的增强处理。本发明专利技术利用基于窗口的双重局部增强模块来弥补Transformer在提取局部特征的不足,进一步的消除模糊;使用含有双分支判别器的生成式对抗网络来生成更真实的色彩,使得增强后的图像更符合人类视觉系统。像更符合人类视觉系统。像更符合人类视觉系统。

【技术实现步骤摘要】
基于Transformer和生成式对抗网络的水下图像增强方法


[0001]本专利技术涉及水下图像处理
,具体来说是基于Transformer和生成式对抗网络的水下图像增强方法。

技术介绍

[0002]作为水下信息的重要载体和呈现形式,水下图像对于水域的探索具有不可替代的重要作用。与普通图像不同,由于水下环境复杂多样,水下图像易遭受各种各样的退化问题。根据水下图像成像原理,水下图像退化主要是由于光线在传播过程中,水的吸收以及遇到水中悬浮颗粒发生的前向散射和后向散射造成的。
[0003]当前水下图像的处理主要分为考虑水下图像退化过程的基于物理模型的复原的方法、不考虑水下图像退化过程直接增强视觉效果的增强的方法以及以数据为驱动的基于深度学习的方法。其中,增强的方法是不考虑图像的退化过程,重新对给定图像的像素值进行分配以达到增强对比度和修正颜色的目的。
[0004]另外,从人工智能角度,以数据为驱动的基于深度学习的方法现在主要分为基于卷积神经网络、基于生成式对抗网络以及基于Transformer。最近,生成式对抗网络和Transformer已经成功地应用在图像到图像的转换任务上并取得很好的效果。
[0005]复原的方法通常通过先验的知识去复原退化的图像,但是当先验知识不准确时,往往会导致较大的估计误差。水下图像缺乏可靠的先验知识,已经成为阻碍该方向研究的一大障碍。
[0006]增强的方法直接运用图像处理的方法,通过主观去调整图像中的像素值,从而消除噪声、改善边缘模糊,加强目标物体的特征,削弱不相干环境特征对目标的影响。但是由于没有考虑水下光学成像模型,会引入一些额外的噪声,在图像的不同区域会造成过饱和的现象。同时,现有的基于深度学习的方法也会出现对于偏色严重的图像偏色纠正不彻底,增强后的图像还会出现模糊、对比度差以及过度增强的问题。
[0007]因此,如何利用深度学习技术进行水下图像增强处理已经成为急需解决的技术问题。

技术实现思路

[0008]本专利技术的目的是为了解决现有技术中难以针对水下图像进行增强处理的缺陷,提供一种基于Transformer和生成式对抗网络的水下图像增强方法来解决上述问题。
[0009]为了实现上述目的,本专利技术的技术方案如下:
[0010]一种基于Transformer和生成式对抗网络的水下图像增强方法,包括以下步骤:
[0011]水下图像的获取和预处理:获取水下图像并进行预处理;
[0012]水下图像增强模型的构建:基于Transformer和生成式对抗网络构建水下图像增强模型;
[0013]水下图像增强模型的训练:将预处理后的水下图像输入水下图像增强模型进行训
练;
[0014]待增强水下图像的获取:获取待增强水下图像,并进行预处理,将所有的图像大小均采用双三次线性插值调整为256
×
256的大小;
[0015]水下图像的增强处理:将预处理后的待增强水下图像输入训练后的水下图像增强模型,获得水下图像的增强结果。
[0016]所述水下图像增强模型的构建包括以下步骤:
[0017]设定水下图像增强模型包括三部分:双重局部增强模块、生成器网络结构和双分支判别器结构;
[0018]构造基于窗口的双重局部增强模块:构建适合水下图像增强的基于窗口的双重局部增强模块;
[0019]构造生成器网络结构:在Encoder

Decoder框架的基础上增加了Inception、Bottlenect以及Fusion模块,以此构造出生成器网络结构;
[0020]构造双分支判别器结构:构造含有特征分支和色彩分支的双分支判别器。
[0021]所述构造基于窗口的双重局部增强模块包括以下步骤:
[0022]设定基于窗口的双重局部增强模块包括两部分,第一部分为提取特征的自注意力模块和自注意力特征图增强模块,第二部分为局部增强模块,其输入为原始图像,输出为自注意力特征图增强模块和局部增强模块融合后的特征图;
[0023]设定提取特征的自注意力模块如下:
[0024]以8
×
8的窗口为单位,把特征图拉伸到1D的形状,经过层归一化,输入到三个不同的可学习参数矩阵得出查询Q、键K、值V向量,然后将查询Q和键K相乘加上相对位置编码B并进行零均值归一化得到注意力矩阵Attn,最后将Attn进行Softmax激活后与值V相乘输出自注意力特征图;
[0025]设定自注意力特征图增强模块如下:
[0026]对自注意力特征图进行层归一化处理,然后用一个大小为1
×
1的卷积核做线性投影,将自注意力特征图重塑为2D的形状,经过一个大小为3
×
3的卷积层后通过拉伸变为1D的形状,最后经过大小为1
×
1的卷积核线性投影到和输入特征相同的维度,输出自注意力增强特征图;
[0027]设定局部增强模块如下:
[0028]局部增强模块的输入为原始图像,经过两个Conv+BatchNorm+GELU模块,其中卷积核的尺寸为3
×
3,输出局部增强特征图;
[0029]对自注意力增强特征图和局部增强特征图进行融合处理,获得双重局部增强的自注意力特征图。
[0030]所述构造生成器网络结构包括以下步骤:
[0031]设定生成器网络结构包括四部分,第一部分为提取原始特征的Inception部分,第二部分为Encoder

Decoder框架,第三部分为提取全局信息的Bottlenect部分,第四部分为融合全局信息到每个尺度的Fusion部分,其输入为原始图像,输出为经过生成器网络增强后的图像;
[0032]输入的图像首先经过Inception部分,提取原始特征后输出到第二部分的Encoder部分,Encoder部分提取特征并进行编码后输出到Bottlenect部分,Encoder部分每层都与
Decoder部分跳跃连接,Bottlenect部分提取全局信息输出到Fusion部分和Decoder部分,Fusion部分将全局信息融入到Decoder部分的每个尺度上,Decoder部分解码并进行重构特征后输出增强后的图像;
[0033]设定Inception部分如下:
[0034]使用一个基于窗口的双重局部增强模块,输入原始图像进行提取特征,输出提取过的原始特征;
[0035]设定Encoder

Decoder框架如下:
[0036]Encoder

Decoder框架由Encoder部分和Decoder部分组成,Encoder部分有5层编码层,将经过Inception部分初步提取的原始特征进行多尺度特征提取,其中第一层只包含一个卷积层,其它层各包含一个Conv+BatchNorm+ReLU模块,所有的卷积层的参数为size=4
×...

【技术保护点】

【技术特征摘要】
1.一种基于Transformer和生成式对抗网络的水下图像增强方法,其特征在于,包括以下步骤:11)水下图像的获取和预处理:获取水下图像并进行预处理;12)水下图像增强模型的构建:基于Transformer和生成式对抗网络构建水下图像增强模型;13)水下图像增强模型的训练:将预处理后的水下图像输入水下图像增强模型进行训练;14)待增强水下图像的获取:获取待增强水下图像,并进行预处理,将所有的图像大小均采用双三次线性插值调整为256
×
256的大小;15)水下图像的增强处理:将预处理后的待增强水下图像输入训练后的水下图像增强模型,获得水下图像的增强结果。2.根据权利要求1所述的基于Transformer和生成式对抗网络的水下图像增强方法,其特征在于,所述水下图像增强模型的构建包括以下步骤:21)设定水下图像增强模型包括三部分:双重局部增强模块、生成器网络结构和双分支判别器结构;22)构造基于窗口的双重局部增强模块:构建适合水下图像增强的基于窗口的双重局部增强模块;23)构造生成器网络结构:在Encoder

Decoder框架的基础上增加了Inception、Bottlenect以及Fusion模块,以此构造出生成器网络结构;24)构造双分支判别器结构:构造含有特征分支和色彩分支的双分支判别器。3.根据权利要求2所述的基于Transformer和生成式对抗网络的水下图像增强方法,其特征在于,所述构造基于窗口的双重局部增强模块包括以下步骤:31)设定基于窗口的双重局部增强模块包括两部分,第一部分为提取特征的自注意力模块和自注意力特征图增强模块,第二部分为局部增强模块,其输入为原始图像,输出为自注意力特征图增强模块和局部增强模块融合后的特征图;32)设定提取特征的自注意力模块如下:以8
×
8的窗口为单位,把特征图拉伸到1D的形状,经过层归一化,输入到三个不同的可学习参数矩阵得出查询Q、键K、值V向量,然后将查询Q和键K相乘加上相对位置编码B并进行零均值归一化得到注意力矩阵Attn,最后将Attn进行Softmax激活后与值V相乘输出自注意力特征图;33)设定自注意力特征图增强模块如下:对自注意力特征图进行层归一化处理,然后用一个大小为1
×
1的卷积核做线性投影,将自注意力特征图重塑为2D的形状,经过一个大小为3
×
3的卷积层后通过拉伸变为1D的形状,最后经过大小为1
×
1的卷积核线性投影到和输入特征相同的维度,输出自注意力增强特征图;34)设定局部增强模块如下:局部增强模块的输入为原始图像,经过两个Conv+BatchNorm+GELU模块,其中卷积核的尺寸为3
×
3,输出局部增强特征图;35)对自注意力增强特征图和局部增强特征图进行融合处理,获得双重局部增强的自
注意力特征图。4.根据权利要求2所述的基于Transformer和生成式对抗网络的水下图像增强方法,其特征在于,所述构造生成器网络结构包括以下步骤:41)设定生成器网络结构包括四部分,第一部分为提取原始特征的Inception部分,第二部分为Encoder

Decoder框架,第三部分为提取全局信息的Bottlenect部分,第四部分为融合全局信息到每个尺度的Fusion部分,其输入为原始图像,输出为经过生成器网络增强后的图像;输入的图像首先经过Inception部分,提取原始特征后输出到第二部分的Encoder部分,Encoder部分提取特征并进行编码后输出到Bottlenect部分,Encoder部分每层都与Decoder部分跳跃连接,Bottlenect部分提取全局信息输出到Fusion部分和Decoder部分,Fusion部分将全局信息融入到Decoder部分的每个尺度上,Decoder部分解码并进行重构特征后输出增强后的图像;42)设定Inception部分如下:使用一个基于窗口的双重局部增强模块,输入原始图像进行提取特征,输出提取过的原始特征;43)设定Encoder

Decoder框架如下:Encoder

Decoder框架由Encoder部分和Decoder部分组成,Encoder部分有5层编码层,将经过Inception部分初步提取的原始特征进行多尺度特征提取,其中第一层只包含一个卷积层,其它层各包含一个Conv+BatchNorm+ReLU模块,所有的卷积层的参数为size=4
×
4、stride=2、p...

【专利技术属性】
技术研发人员:杨静高志何立新陈海文张召霞
申请(专利权)人:合肥学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1