【技术实现步骤摘要】
一种基于感知驱动的弱监督水下图像增强方法
[0001]本专利技术涉及一种水下图像增强方法,尤其是涉及一种基于感知驱动的弱监督水下图像增强方法。
技术介绍
[0002]近年来,水下探测作业技术已成为海洋
的研究热点。要实现水下探测和作业,水下机器人必须能快速对水下环境中需要捕获信息的目标进行精确识别和定位。但是,由于光在水介质中传输时会出现光衰减情况,设备捕获的退化水下图像和视频难以保持较高的质量,导致远程操作员无法对所获得的退化水下图像和视频内容进行准确地判断,因此对失真水下图像进行增强具有重要意义。而成像出现的失真情况可归为三种:低对比度、颜色偏移和噪声,其中,颜色偏移是因光衰减导致图像内不同颜色光强度失真而引起的,而环境光的散射会导致对比度降低,同时所成像的边缘和细节被模糊。不但如此,水温、盐度和水中颗粒物的类型和数量等其他因素对水下图像的成像也有巨大影响。严峻的水下环境使得水下图像普遍存在以上一种或多种失真问题,但是水下图像质量对于水下视觉任务和研究是极其重要的,因此,如何有效地增强水下图像,使其接近于无水的地面 ...
【技术保护点】
【技术特征摘要】
1.一种基于感知驱动的弱监督水下图像增强方法,其包括训练阶段和测试阶段,其特征在于在训练阶段中,首先构建一个第一训练集和一个第二训练集,第一训练集包含数个图像子集,每个图像子集包含数对图像对,每对图像对有两幅水下增强图像,不同图像子集中的水下增强图像的场景各不相同,同一个图像子集中的水下增强图像的场景为同一个场景,每对图像对的两幅水下增强图像所采用的水下图像增强方法不同,第二训练集包含数幅不同场景下的原始水下图像和相同数量的不同场景下的自然图像,其中,水下增强图像、原始水下图像和自然图像的尺寸相同;并构建三个神经网络,第1个神经网络作为图像质量评价网络,第2个神经网络作为图像生成器网络,第3个神经网络作为图像鉴别器网络;然后将第一训练集中的每对图像对的每幅水下增强图像输入到图像质量评价网络中进行网络训练,每轮训练结束后图像质量评价网络输出第一训练集中的每对图像对的每幅水下增强图像的质量预测分数,每轮训练结束后针对第一训练集中的每对图像对计算质量损失函数值,在多轮训练结束后训练得到图像质量评价网络训练模型;再将第二训练集中的每幅原始水下图像输入到图像生成器网络中进行网络训练,每轮训练结束后图像生成器网络输出第二训练集中的每幅原始水下图像对应的增强结果图像,随后将第二训练集中的每幅原始水下图像和对应的增强结果图像以及一幅自然图像分别输入到图像鉴别器网络中进行网络训练,每轮训练结束后先计算图像鉴别器网络的损失函数值,后计算图像生成器网络的损失函数值,交叉训练图像生成器网络和图像鉴别器网络多轮后训练得到图像生成器网络训练模型和图像鉴别器网络训练模型,其中,计算图像生成器网络的损失函数值时考虑了将第二训练集中的原始水下图像输入到图像质量评价网络训练模型中输出的原始水下图像的质量预测分数以及将第二训练集中的原始水下图像对应的增强结果图像输入到图像质量评价网络训练模型中输出的增强结果图像的质量预测分数;在测试阶段中,将测试用水下图像输入到图像生成器网络训练模型中,图像生成器网络训练模型输出测试用水下图像的增强结果;上述,图像质量评价网络包括1个第一卷积块、4个第二卷积块、12个第三卷积块、1个全局平均池化模型、3个全连接层,由1个第一卷积块、4个第二卷积块、12个第三卷积块构成图像质量评价网络中的编码网络,由1个全局平均池化模型和3个全连接层构成图像质量评价网络中的回归网络;第一卷积块的输入通道数为3、输出通道数为64,第一卷积块的输入端同时接收一幅尺寸为H
×
W的RGB图像的R、G、B三个通道,将第一卷积块的输出端输出的尺寸为的特征图记为I
Q1
;第1个第二卷积块的输入通道数为64、输出通道数为256,第1个第二卷积块的输入端接收I
Q1
,将第1个第二卷积块的输出端输出的尺寸为的特征图记为I
Q2
;第1个第三卷积块的输入通道数为256、输出通道数为256,第1个第三卷积块的输入端接收I
Q2
,将第1个第三卷积块的输出端输出的尺寸为的特征图记为I
Q3
;第2个第三卷积块的输入通道数为256、输出通道数为256,第2个第三卷积块的输入端接收I
Q3
,将第2个第三卷积块的输出端输出的尺寸为的特征图记为I
Q4
;第2个第二卷积块的输入通道数为256、输出通道数为512,第2个第二卷积块的输入端接收I
Q4
,将第2个
第二卷积块的输出端输出的尺寸为的特征图记为I
Q5
;第3个第三卷积块的输入通道数为512、输出通道数为512,第3个第三卷积块的输入端接收I
Q5
,将第3个第三卷积块的输出端输出的尺寸为的特征图记为I
Q6
;第4个第三卷积块的输入通道数为512、输出通道数为512,第4个第三卷积块的输入端接收I
Q6
,将第4个第三卷积块的输出端输出的尺寸为的特征图记为I
Q7
;第5个第三卷积块的输入通道数为512、输出通道数为512,第5个第三卷积块的输入端接收I
Q7
,将第5个第三卷积块的输出端输出的尺寸为的特征图记为I
Q8
;第3个第二卷积块的输入通道数为512、输出通道数为1024,第3个第二卷积块的输入端接收I
Q8
,将第3个第二卷积块的输出端输出的尺寸为的特征图记为I
Q9
;第6个第三卷积块的输入通道数为1024、输出通道数为1024,第6个第三卷积块的输入端接收I
Q9
,将第6个第三卷积块的输出端输出的尺寸为的特征图记为I
Q10
;第7个第三卷积块的输入通道数为1024、输出通道数为1024,第7个第三卷积块的输入端接收I
Q10
,将第7个第三卷积块的输出端输出的尺寸为的特征图记为I
Q11
;第8个第三卷积块的输入通道数为1024、输出通道数为1024,第8个第三卷积块的输入端接收I
Q11
,将第8个第三卷积块的输出端输出的尺寸为的特征图记为I
Q12
;第9个第三卷积块的输入通道数为1024、输出通道数为1024,第9个第三卷积块的输入端接收I
Q12
,将第9个第三卷积块的输出端输出的尺寸为的特征图记为I
Q13
;第10个第三卷积块的输入通道数为1024、输出通道数为1024,第10个第三卷积块的输入端接收I
Q13
,将第10个第三卷积块的输出端输出的尺寸为的特征图记为I
Q14
;第4个第二卷积块的输入通道数为1024、输出通道数为2048,第4个第二卷积块的输入端接收I
Q14
,将第4个第二卷积块的输出端输出的尺寸为的特征图记为I
Q15
;第11个第三卷积块的输入通道数为2048、输出通道数为2048,第11个第三卷积块的输入端接收I
Q15
,将第11个第三卷积块的输出端输出的尺寸为的特征图记为I
Q16
;第12个第三卷积块的输入通道数为2048、输出通道数为2048,第12个第三卷积块的输入端接收I
Q16
,将第12个第三卷积块的输出端输出的尺寸为的特征图记为I
Q17
;全局平均池化模型的输入通道数为2048、输出通道数为2048,全局平均池化模型的输入端接收I
Q17
,将全局平均池化模型的输出端输出的尺寸为1
×1×
2048的特征向量记为I
gap1
;第1个全连接层的输入通道数为2048、输出通道数为4096,第1个全连接层的输入端接收I
gap1
,将第1个全连接层的输出端输出的尺寸为1
×1×
2048的特征向量记为I
f1
;第2个全连接层的输入通道数为4096、输出通道数为4096,第2个全连接层的输入端接收I
f1
,将第2个全连接层的输出端输出的尺寸为1
×1×
4096的特征向量记为I
f2
;第3个全连接层的输入通道数为4096、输出通道数为1,第3个全连接层的输入端接收I
f2
,第3个全连接层的输出端输出一个数值,该数值代表输入到图像质量评价网络中的RGB图像的质量预测分数;上述,图像生成器网络包括1个第四卷积块、4个第五卷积块、4个第六卷积块、4个第七卷积块、1个第八卷积块,由第四卷积块和4个第五卷积块构成图像生成器网络中的编码网络,由4个第六卷积块构成图像生成器网络中的通道注意力模块,由4个第七卷积块和第八卷积块构成图像生成器网络中的解码网络;第四卷积块的输入通道数为3、输出通道数为32,第四卷积块的输入端同时接收一幅尺寸为H
×
W的RGB图像的R、G、B三个通道,将第四卷积块的输出端输出的尺寸为H
×
W
×
32的特征图记为I
E1
;第1个第五卷积块的输入通道数为32、输出通道数为32,第1个第五卷积块的输入端接收I
E1
,将第1个第五卷积块的输出端输出的尺寸为H
×
W
×
32的特征图记为I
E2
;第2个第五卷积块的输入通道数为32、输出通道数为64,第2个第五卷积块的输入端接收I
E2
,将第2个第五卷积块的输出端输出的尺寸为的特征图记为I
E3
;第3个第五卷积块的输入通道数为64、输出通道数为128,第3个第五卷积块的输入端接收I
E3
,将第3个第五卷积块的输出端输出的尺寸为的特征图记为I
E4
;第4个第五卷积块的输入通道数为128、输出通道数为256,第4个第五卷积块的输入端接收I
E4
,将第4个第五卷积块的输出端输出的尺寸为的特征图记为I
E5
;第1个第六卷积块的输入通道数为32、输出通道数为32,第1个第六卷积块的输入端接收I
E2
,将第1个第六卷积块的输出端输出的尺寸为H
×
W
×
32的特征图记为I
C1
;第2个第六卷积块的输入通道数为64、输出通道数为64,第2个第六卷积块的输入端接收I
E3
,将第2个第六卷积块的输出端输出的尺寸为的特征图记为I
C2
;第3个第六卷积块的输入通道数为128、输出通道数为128,第3个第六卷积块的输入端接收I
E4
,将第3个第六卷积块的输出端输出的尺寸为的特征图记为I
C3
;第4个第六卷积块的输入通道数为256、输出通道数为256,第4个第六卷积块的输入端接收I
E5
,将第4个第六卷积块的输出端输出的尺寸为的特征图记为I
C4
;第1个第七卷积块的输入通道数为256、输出通道数为256,第1个第七卷积块的输入端接收I
E5
,将第1个第七卷积块的输出端输出的尺寸为的特征图记为I
D1
;第2个第七卷积块的输入通道数为512、输出通道数为128,第2个第七卷积块的输入端接收对I
D1
和I
C4
进行拼接操作后得到的尺寸为的特征图I
DC1
,将第2
个第七卷积块的输出端输出的尺寸为的特征图记为I
D2
;第3个第七卷积块的输入通道数为256、输出通道数为64,第3个第七卷积块的输入端接收对I
D2
和I
C3
进行拼接操作后得到的尺寸为的特征图I
DC2
,将第3个第七卷积块的输出端输出的尺寸为的特征图记为I
D3
;第4个第七卷积块的输入通道数为128、输出通道数为32,第4个第七卷积块的输入端接收对I
D3
和I
C2
进行拼接操作后得到的尺寸为的特征图I
DC3
,将第4个第七卷积块的输出端输出的尺寸为H
×
W
×
32的特征图记为I
D4
;第八卷积块的输入通道数为64、输出通道数为3,第八卷积块的输入端接收对I
D4
和I
C1
进行拼接操作后得到的尺寸为H
×
W
×
64的特征图I
DC4
,将第八卷积块的输出端输出的尺寸为H
×
W
×
3的特征图记为I
D5
,将I
D5
作为RGB图像对应的图像退化信息;对输入到图像生成器网络中的RGB图像与其对应的图像退化信息进行逐元素相加操作,将得到的图像作为图像生成器网络输出的增强结果图像;上述,图像鉴别器网络包括5个第九卷积块和5个第十卷积块,由5个第九卷积块构成图像鉴别器网络中的编码网络,由5个第十卷积块构成图像鉴别器网络中的特征输出模块;第1个第九卷积块的输入通道数为3、输出通道数为32,第1个第九卷积块的输入端同时接收一幅尺寸为H
×
W的RGB图像的R、G、B三个通道,将第1个第九卷积块的输出端输出的尺寸为H
×
W
×
32的特征图记为I
Dis1
;第2个第九卷积块的输入通道数为32、输出通道数为64,第2个第九卷积块的输入端接收I
Dis1
,将第2个第九卷积块的输出端输出的尺寸为的特征图记为I
Dis2
;第3个第九卷积块的输入通道数为64、输出通道数为128,第3个第九卷积块的输入端接收I
Dis2
,将第3个第九卷积块的输出端输出的尺寸为的特征图记为I
Dis3
;第4个第九卷积块的输入通道数为128、输出通道数为256,第4个第九卷积块的输入端接收I
Dis3
,将第4个第九卷积块的输出端输出的尺寸为的特征图记为I
Dis4
;第5个第九卷积块的输入通道数为256、输出通道数为512,第5个第九卷积块的输入端接收I
Dis4
,将第5个第九卷积块的输出端输出的尺寸为的特征图记为I
Dis5
;第1个第十卷积块的输入通道数为32、输出通道数为1,第1个第十卷积块的输入端接收I
Dis1
,将第1个第十卷积块的输出端输出的尺寸为H
×
W
×
1的特征图记为I
Dr1
;第2个第十卷积块的输入通道数为64、输出通道数为1,第2个第十卷积块的输入端接收I
Dis2
,将第2个第十卷积块的输出端输出的尺寸为的特征图记为I
Dr2
;第3个第十卷积块的输入通道数为128、输出通道数为1,第3个第十卷积块的输入端接收I
Dis3
,将第3个第十卷积块的输出端输出的尺寸为的特征图记为I
Dr3
;第4个第十卷积块的输入通道数为256、输出通道数为1,第
4个第十卷积块的输入端接收I
Dis4
,将第4个第十卷积块的输出端输出的尺寸为的特征图记为I
Dr4
;第5个第十卷积块的输入通道数为512、输出通道数为1,第5个第十卷积块的输入端接收I
Dis5
,将第5个第十卷积块的输出端输出的尺寸为的特征图记为I
Dr5
;图像鉴别器网络的输出端输出I
Dr1
、I
Dr2
、I
Dr3
、I
Dr4
、I
Dr5
。2.根据权利要求1所述的一种基于感知驱动的弱监督水下图像增强方法,其特征在于所述的第一训练集的构建过程为:选取N1幅不同场景下的原始水下图像;然后采用N2种不同的水下图像增强方法对每幅原始水下图像进行增强处理,得到每幅原始水下图像对应的N2幅水下增强图像,并将每幅原始水下图像对应的N2幅水下增强图像构成一个图像子集;再将每个图像子集中的N2幅水下增强图像排成一列,将每幅水下增强图像与位于其后的各幅水下增强图像两两组合成图像对,共得到(N2‑
1)+(N2‑
2)+
…
+1对图像对;最后将N1个图像子集共N1×
((N2‑
1)+(N2‑
2)+
…
+1)对图像对构成第一训练集;其中,N1≥100,N2≥10,原始水下图像和水下增强图像的尺寸为H
×
W,即原始水下图像和水下增强图像的高度为H且宽度为W。3.根据权利要求1所述的一种基于感知驱动的弱监督水下图像增强方法,其特征在于所述的第二训练集的构建过程为:选取N3幅不同场景下的原始水下图像及N3幅不同场景下的自然图像构成第二训练集;其中,N3≥800,原始水下图像和自然图像的尺寸为H
×
W,即原始水下图像和自然图像的高度为H且宽度为W。4.根据权利要求1至3中任一项所述的一种基于感知驱动的弱监督水下图像增强方法,其特征在于所述的图像质量评价网络训练模型的具体获取过程为:将第一训练集中的每对图像对的每幅水下增强图像的R、G、B三个通道同时输入到图像质量评价网络中进行网络训练,每轮训练结束后图像质量评价网络输出第一训练集中的每对图像对的每幅水下增强图像的质量预测分数,每轮训练结束后针对第一训练集中的每对图像对计算质量损失函数值,将针对任意一对图像对的质量损失函数值记为Loss
quality
,Loss
quality
=max(0,
‑
R
×
(Q1‑
Q2)+margin),在训练至少100轮后训练得到图像质量评价网络训练模型;其中,max()为取最大值函数,Q1表示该对图像对的第1幅水下增强图像的R、G、B三个通道同时输入到图像质量评价网络中输出的质量预测分数,Q2表示该对图像对的第2幅水下增强图像的R、G、B三个通道同时输入到图像质量评价网络中输出的质量预测分数,margin为常数,margin∈(0,1),R表示该对图像对的第1幅水下增强图像与第2幅水下增强图像的主观偏好值,若主观偏好于第1幅水下增强图像则R=1,若主观偏好于第2幅水下增强图像则R=
‑
1。5.根据权利要求4所述的一种基于感知驱动的弱监督水下图像增强方法,其特征在于所述的图像生成器网络训练...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。