一种基于扩张卷积块的多模态融合显著性检测方法技术

技术编号:26891618 阅读:60 留言:0更新日期:2020-12-29 16:10
本发明专利技术公开了一种基于扩张卷积块的多模态融合显著性检测方法,其构建的卷积神经网络采用了渐增扩张卷积块,以RGB图的编码网络中的第1个至第4个神经网络块的多尺度输出为输入,能对输入的特征图进行自适应特征细化,以捕捉更充分的RGB特征信息,以提高视觉显著性检测精度;采用了通道注意力模块,以深度图和RGB图的元素相加结果作为输入,能有效结合跨模态多尺度的深度信息和细化后的RGB信息,增强了显著区域的表达,提高了显著检测精度;采用了特征交互增强模块,以RGB图的编码网络中的第5个神经网络块的输出为输入,通过两个特征交互流将输入的高层RGB信息进行特征增强,与高层深度信息进行跨模态融合,能利用多模态信息捕获更精确的显著区域。

【技术实现步骤摘要】
一种基于扩张卷积块的多模态融合显著性检测方法
本专利技术涉及一种视觉显著性检测方法,尤其是涉及一种基于扩张卷积块的多模态融合显著性检测方法。
技术介绍
在图像中寻找感兴趣的对象时,人可以自动捕获对象及其上下文之间的语义信息,对显著对象给予高度的关注,并选择性地抑制不重要的因素。这种精确的视觉注意机制已经在各种生物逻辑模型中得到了解释。显著性检测的目的是自动检测图像中最具信息和吸引力的部分。在许多图像应用中,例如图像质量评估、语义分割、图像识别等,确定显著目标不仅可以降低计算成本,还可以提高显著性模型的性能。早期的显著性检测方法采用手工特征,即主要针对图像颜色、纹理、对比度等进行先验式模拟近似人眼注视的显著性。随着显著性研究的深入,发现这些手工特征已经不足以很好地捕获图像中的特征,因为这种手工特征未能提取到图像中的对象特征和其周围环境的高级语义。因此,采用深度学习的方法能更好地提取图像特征,以达到更好的显著性检测效果。现有的显著性检测方法大多数已经采用深度学习的方法,利用卷积层与池化层相结合的方法提取图像特征,但是单纯的使用卷积操作与池化操作获得本文档来自技高网...

【技术保护点】
1.一种基于扩张卷积块的多模态融合显著性检测方法,其特征在于包括训练阶段和测试阶段两个过程;/n所述的训练阶段过程的具体步骤为:/n步骤①_1:选取K幅原始立体图像的RGB图和深度图及每幅原始立体图像对应的真实人眼注释图构成训练集,将训练集中的第i幅原始立体图像的RGB图和深度图对应记为

【技术特征摘要】
1.一种基于扩张卷积块的多模态融合显著性检测方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤①_1:选取K幅原始立体图像的RGB图和深度图及每幅原始立体图像对应的真实人眼注释图构成训练集,将训练集中的第i幅原始立体图像的RGB图和深度图对应记为和将训练集中与第i幅原始立体图像对应的真实人眼注释图记为其中,K为正整数,K≥200,1≤i≤K,(x,y)代表像素点的坐标位置,用W表示原始立体图像的宽度,用H表示原始立体图像的高度,则有1≤x≤W,1≤y≤H,表示中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值;
步骤①_2:构建卷积神经网络:该卷积神经网络包括输入层、隐层和输出层,输入层由RGB图输入层和深度图输入层两部分构成,隐层由第1个神经网络块至第10个神经网络块、渐增扩张卷积块、第1个通道注意力模块至第4个通道注意力模块、特征交互增强模块、第1个上采样块至第5个上采样块组成,渐增扩张卷积块由第1个扩张卷积块至第10个扩张卷积块组成;
对于RGB图输入层,其输入端接收一幅原始RGB图的R通道分量、G通道分量和B通道分量,其输出端输出原始RGB图的R通道分量、G通道分量和B通道分量给隐层;其中,原始RGB图的宽度为W、高度为H;
对于深度图输入层,其输入端接收一幅原始深度图通过采用HHA方法处理成的三通道深度图,其输出端输出三通道深度图给隐层;其中,原始深度图的宽度为W、高度为H;
对于隐层,第1个神经网络块的输入端作为隐层的第一输入端接收RGB图输入层的输出端输出的原始RGB图的R通道分量、G通道分量和B通道分量,第1个神经网络块的输出端输出64幅特征图,将这64幅特征图构成的集合记为S1,S1中的每幅特征图的宽度为高度为第2个神经网络块的输入端接收S1中的所有特征图,第2个神经网络块的输出端输出128幅特征图,将这128幅特征图构成的集合记为S2,S2中的每幅特征图的宽度为高度为第3个神经网络块的输入端接收S2中的所有特征图,第3个神经网络块的输出端输出256幅特征图,将这256幅特征图构成的集合记为S3,S3中的每幅特征图的宽度为高度为第4个神经网络块的输入端接收S3中的所有特征图,第4个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S4,S4中的每幅特征图的宽度为高度为第5个神经网络块的输入端接收S4中的所有特征图,第5个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S5,S5中的每幅特征图的宽度为高度为第6个神经网络块的输入端作为隐层的第二输入端接收深度图输入层的输出端输出的三通道深度图,第6个神经网络块的输出端输出64幅特征图,将这64幅特征图构成的集合记为S6,S6中的每幅特征图的宽度为高度为第7个神经网络块的输入端接收S6中的所有特征图,第7个神经网络块的输出端输出128幅特征图,将这128幅特征图构成的集合记为S7,S7中的每幅特征图的宽度为高度为第8个神经网络块的输入端接收S7中的所有特征图,第8个神经网络块的输出端输出256幅特征图,将这256幅特征图构成的集合记为S8,S8中的每幅特征图的宽度为高度为第9个神经网络块的输入端接收S8中的所有特征图,第9个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S9,S9中的每幅特征图的宽度为高度为第10个神经网络块的输入端接收S9中的所有特征图,第10个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S10,S10中的每幅特征图的宽度为高度为第1个扩张卷积块的输入端接收S1中的所有特征图,第1个扩张卷积块的输出端输出32幅特征图,将这32幅特征图构成的集合记为Z1,Z1中的每幅特征图的宽度为高度为第2个扩张卷积块的输入端接收S2中的所有特征图,第2个扩张卷积块的输出端输出64幅特征图,将这64幅特征图构成的集合记为Z2,Z2中的每幅特征图的宽度为高度为第3个扩张卷积块的输入端接收S2中的所有特征图,第3个扩张卷积块的输出端输出64幅特征图,将这64幅特征图构成的集合记为Z3,Z3中的每幅特征图的宽度为高度为第4个扩张卷积块的输入端接收S3中的所有特征图,第4个扩张卷积块的输出端输出128幅特征图,将这128幅特征图构成的集合记为Z4,Z4中的每幅特征图的宽度为高度为第5个扩张卷积块的输入端接收S3中的所有特征图,第5个扩张卷积块的输出端输出128幅特征图,将这128幅特征图构成的集合记为Z5,Z5中的每幅特征图的宽度为高度为第6个扩张卷积块的输入端接收S3中的所有特征图,第6个扩张卷积块的输出端输出128幅特征图,将这128幅特征图构成的集合记为Z6,Z6中的每幅特征图的宽度为高度为第7个扩张卷积块的输入端接收S4中的所有特征图,第7个扩张卷积块的输出端输出256幅特征图,将这256幅特征图构成的集合记为Z7,Z7中的每幅特征图的宽度为高度为第8个扩张卷积块的输入端接收S4中的所有特征图,第8个扩张卷积块的输出端输出256幅特征图,将这256幅特征图构成的集合记为Z8,Z8中的每幅特征图的宽度为高度为第9个扩张卷积块的输入端接收S4中的所有特征图,第9个扩张卷积块的输出端输出256幅特征图,将这256幅特征图构成的集合记为Z9,Z9中的每幅特征图的宽度为高度为第10个扩张卷积块的输入端接收S4中的所有特征图,第10个扩张卷积块的输出端输出256幅特征图,将这256幅特征图构成的集合记为Z10,Z10中的每幅特征图的宽度为高度为第1个通道注意力模块至第4个通道注意力模块的结构相同,第1个通道注意力模块的第一输入端接收Z1中的所有特征图,第1个通道注意力模块的第二输入端接收S6中的所有特征图,第2个通道注意力模块的第一输入端接收对Z2中的所有特征图和Z3中的所有特征图进行元素相加操作后得到的所有特征图,第2个通道注意力模块的第二输入端接收S7中的所有特征图,第3个通道注意力模块的第一输入端接收对Z4中的所有特征图、Z5中的所有特征图和Z6中的所有特征图进行元素相加操作后得到的所有特征图,第3个通道注意力模块的第二输入端接收S8中的所有特征图,第4个通道注意力模块的第一输入端接收对Z7中的所有特征图、Z8中的所有特征图、Z9中的所有特征图和Z10中的所有特征图进行元素相加操作后得到的所有特征图,第4个通道注意力模块的第二输入端接收S9中的所有特征图,每个通道注意力模块对第一输入端接收的所有特征图和第二输入端接收的所有特征图进行元素相加操作得到多幅第一调整图,将所有第一调整图构成的集合记为T1,对T1中的每幅第一调整图进行矩阵形状调整操作得到第二调整图,将所有第二调整图构成的集合记为T2,对T2中的每幅第二调整图进行矩阵转置操作得到第三调整图,将所有第三调整图构成的集合记为T3,对T3中的所有第三调整图和T2中的所有第二调整图进行元素相乘操作得到多幅第一元素相乘图,将所有第一元素相乘图构成的集合记为T4,利用softmax函数对T4中的每幅第一元素相乘图进行处理后乘上学习参数α得到第一处理图,将所有第一处理图构成的集合记为T5,利用sigmoid函数对T4中的每幅第一元素相乘图进行处理后乘上学习参数(1-α)得到第二处理图,将所有第二处理图构成的集合记为T6,对T5中的所有第一处理图和T6中的所有第二处理图进行元素相加操作得到多幅初步注意力图,将所有初步注意力图构成的集合记为T7,对T7中的所有初步注意力图和T1中的所有第一调整图进行元素相乘操作得到多幅第二元素相乘图,将所有第二元素相乘图构成的集合记为T8,对T8中的每幅第二元素相乘图进行矩阵形状调整操作得到第四调整图,将所有第四调整图构成的集合记为T9,对T9中的所有第四调整图和和T1中的所有第一调整图进行元素相加操作得到多幅最终注意力图,将所有最终注意力图作为每个通道注意力模块的输出端输出的所有特征图,将第1个通道注意力模块的输出端输出的所有特征图构成的集合记为F1,将第2个通道注意力模块的输出端输出的所有特征图构成的集合记为F2,将第3个通道注意力模块的输出端输出的所有特征图构成的集合记为F3,将第4个通道注意力模块的输出端输出的所有特征图构成的集合记为F4,F1中包含96幅特征图且每幅特征图的宽度为高度为F2中包含256幅特征图且每幅特征图的宽度为高度为F3中包含640幅特征图且每幅特征图的宽度为高度为F4中包含1536幅特征图且每幅特征图的宽度为高度为特征交互增强模块由1×1卷积块、第一自适应池化层、第二自适应池化层、第四激活层、第五激活层、第11个扩张卷积块至第18个扩张卷积块组成,第四激活层和第五激活层的激活方式为“ReLU函数”,1×1卷积块的输入端作为特征交互增强模块的输入端接收S5中的所有特征图,1×1卷积块的输出端输出256幅特征图,将这256幅特征图构成的集合记为E1,E1中的每幅特征图的宽度为高度为第一自适应池化层的输入端和第二自适应池化层的输入端分别接收E1中的所有特征图,第一自适应池化层的输出端输出256幅特征图,将这256幅特征图构成的集合记为E2,E2中的每幅特征图的宽度为高度为第二自适应池化层的输出端输出256幅特征图,将这256幅特征图构成的集合记为E3,E3中的每幅特征图的宽度为高度为第四激活层的输入端接收E2中的所有特征图,第五激活层的输入端接收E3中的所有特征图,第四激活层的输出端输出256幅特征图,将这256幅特征图构成的集合记为E4,E4中的每幅特征图的宽度为高度为第五激活层的输出端输出256幅特征图,将这256幅特征图构成的集合记为E5,E5中的每幅特征图的宽度为高度为第11个扩张卷积块至第14个扩张卷积块各自的输入端分别接收E4中的所有特征图,第15个扩张卷积块至第18个扩张卷积块各自的输入端分别接收E5中的所有特征图,第11个扩张卷积块至第18个扩张卷积块各自的输出端输出128幅特征图,将第11个扩张卷积块的输出端输出的128幅特征图构成的集合记为E6,将第12个扩张卷积块的输出端输出的128幅特征图构成的集合记为E7,将第13个扩张卷积块的输出端输出的128幅特征图构成的集合记为E8,将第14个扩张卷积块的输出端输出的128幅特征图构成的集合记为E9,将第15个扩张卷积块的输出端输出的128幅特征图构成的集合记为E10,将第16个扩张卷积块的输出端输出的128幅特征图构成的集合记为E11,将第17个扩张卷积块的输出端输出的128幅特征图构成的集合记为E12,将第18个扩张卷积块的输出端输出的128幅特征图构成的集合记为E13,E6、E7、E8、E9、E10、E11、E12、E13中的每幅特征图的宽度为高度为对E6中的所有特征图、E7中的所有特征图、E8中的所有特征图、E9中的所有特征图进行通道数叠操作,得到512幅特征图,将这512幅特征图构成的集合记为E14,E14中的每幅特征图的宽度为高度为对E10中的所有特征图、E11中的所有特征图、E12中的所有特征图、E13中的所有特...

【专利技术属性】
技术研发人员:周武杰张欣悦雷景生靳婷史文彬
申请(专利权)人:浙江科技学院
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1