一种基于模态特性与分层融合的RGB-D显著性检测方法技术

技术编号:39310422 阅读:15 留言:0更新日期:2023-11-12 15:56
本发明专利技术涉及一种基于模态特性与分层融合的RGB

【技术实现步骤摘要】
一种基于模态特性与分层融合的RGB

D显著性检测方法


[0001]本专利技术涉及计算机视觉领域,特别涉及一种基于模态特性与分层融合的RGB

D显著性检测方法。

技术介绍

[0002]显著性检测旨在检测和分割出图片中最能吸引人关注的区域或目标,可以作为图像重定向、图像压缩和AR交互等广泛计算机视觉任务领域的前置任务。目前RGB

D显著性目标检测任务通常采用卷积神经网络技术,通过大规模数据训练端到端模型,相较于传统方法,有着能捕获更多特征,以及在显著性目标检测上有更高精确度的优势。然而目前的大部分基于卷积网络的显著性检测方法无法充分利用跨模态特征信息,在面对一些RGB图与深度图中的复杂场景时,往往无法有效识别显著目标。
[0003]复杂场景下的RGB图片与深度图片分别存在如下问题:1)RGB图:由于背景杂乱,光照条件较差,显著目标检测困难,最终结果可能目标结构不完整;2)深度图:当场景布局较为复杂时,显著目标同深度位置下通常存在其他物体,会导致识别时存在歧义,最终结果可能误识别到其他物体。常规技术方案通常采用针对某个模态注意力增强或者交互融合两个模态,没有充分利用不同模态特征信息差异针对性的对两个模态进行增强,导致识别效果提升有限。此外,在特征融合生成预测图方面,一般的融合方法采用跳连接来不断还原分辨率的方式进行融合,忽略了不同阶段网络特征所含的信息特性不同,融合的兼容性较差,导致目标细节信息丢失。

技术实现思路

[0004]针对常见显著性检测方法在RGB图背景杂乱或者深度图布局混乱等复杂场景下,交互不能充分利用信息差异性、一般融合方法的融合兼容性较差的问题,提出了一种基于模态特性与分层融合的RGB

D显著性检测方法,充分利用不同模态的特征信息特点来跨模态交互,并分层重连接融合特征图。
[0005]本专利技术的技术方案为:
[0006]一种基于模态特性与分层融合的RGB

D显著性检测方法,包括以下步骤:
[0007]步骤S1:从RGB

D显著性检测任务广泛使用的基准数据集中,选取复杂场景下的图像对,每一个图像对包含一张RGB图以及其对应的深度图;
[0008]步骤S2:建立RGB

D显著性检测模型的两个特征提取网络;
[0009]在特征提取网络中,分别由低到高的多个层次提取RGB图与深度图特征,得到五层的RGB特征图与对应的深度特征图;
[0010]步骤S3:采用基于模态特性的交互方式,使用RGB引导增强模块,对特征提取网络的每一层的深度特征图进行增强,得到增强的深度特征图,并使用Depth引导增强模块对每一层的RGB特征图进行增强,得到增强的RGB特征图;
[0011]步骤S4:采用分层次的重连接融合方式,先特征图输入语义重连接融合模块,得到
语义特征图,接着将特征图输入空间重连接融合模块,得到空间特征图;
[0012]步骤S5:将空间特征图和语义特征图进行最终融合,得到最终的基于模态特性与分层融合的RGB

D显著性检测模型;
[0013]步骤S6:输入的复杂场景下的图像对,通过最终的基于模态特性与分层融合的RGB

D显著性检测模型后,输出包含显著对象的预测图像对。
[0014]步骤S3中的RGB引导增强模块的具体操作为:连接深度特征图和RGB特征图,将两种模态连接后的特征图进行通道调整后,分别传入一个3
×
3和一个7
×
7的并行卷积层中;3
×
3卷积核提取局部特征信息,7
×
7卷积核提取多尺度的全局显著目标特征,得到拥有多尺度特征信息的融合特征图;然后对输入的深度特征图进行最大池化,得到深度特征图的空间特征掩码;将空间特征掩码与融合特征图进行像素级乘法运算,再与原深度特征图相加,得到增强的深度特征图。
[0015]步骤S3中的Depth引导增强模块具体操作为:深度特征图分别通过两个1
×
1卷积层调整通道数,并进行重排生成深度特征描述向量和深度通道描述向量;将深度通道描述向量转置后,与深度特征描述向量进行向量矩阵相乘,得到深度通道特征描述子;将深度通道特征描述子传入多层感知机进行非线性激活,得到增强的完整深度通道特征图,将RGB特征图与增强的完整深度通道特征图进行像素级相加,得到增强的RGB特征图。
[0016]步骤S4中的语义重连接融合模块具体操作为:经过特征提取网络多层提取特征后,特征提取网络后三层具有更丰富的语义信息,采用重连接能提高特征提取网络后三层特征融合的兼容性,保留更多细节特征;语义重连接融合模块具体操作为:对后三层增强后的RGB特征图与深度特征图在像素级相加后,通过一个3
×
3卷积来初步聚合,随后将初步聚合的结果经过通道注意力,再与后三层增强后的RGB特征图与深度特征图进行重连接并通过大小为1
×
1的卷积调整到3通道数,得到包含全面的多尺度语义信息的语义特征图。
[0017]步骤S4中的空间重连接融合模块具体操作为:特征提取网络的前三层保留更多空间信息,采用重连接能提高特征提取网络前三层特征融合的兼容性,保留更多边缘轮廓特征;空间重连接融合模块具体操作为:对前三层的增强后的RGB特征图与深度特征图在像素级相加后,通过一个3
×
3卷积来初步聚合,随后将初步聚合的结果经过空间注意力,再与前三层增强后的RGB特征图与深度特征图进行重连接并通过大小为1
×
1的卷积调整到3通道数,得到全面的多尺度空间信息的空间特征图。
[0018]步骤S2具体为:将两个残差网络作为特征提取网络,将这两个残差网络从输入层开始,分为由低到高的五个层次提取RGB图与深度图特征,分别得到五层RGB特征图与五层深度特征图。
[0019]得到的RGB特征图与深度特征图由低到高每层尺寸大小分别为352*352、176*176、88*88、44*44和22*22。
[0020]步骤S5具体为:
[0021]将空间特征图和语义特征图通过3*3卷积进行最终融合,得到基于模态特性与分层融合的RGB

D显著性检测模型,进行训练及验证后,得到最终的基于模态特性与分层融合的RGB

D显著性检测模型。
[0022]步骤S1具体为:从RGB

D显著性检测任务广泛使用的基准数据集NJU2K数据集与NLPR数据集中,分别选取包含其他物体干扰的复杂场景下的1485个图像对和700个图像对,
经过尺寸变换为352*352后,通过随机翻转与边缘裁剪进行预处理。
[0023]本专利技术的有益效果在于:
[0024]1、本专利技术通过基于模态特性的交互方式,在输入的RGB图与深度图特征分布差距较大的情况下,更能充分利用的不同模态的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于模态特性与分层融合的RGB

D显著性检测方法,其特征在于,包括以下步骤:步骤S1:从RGB

D显著性检测任务广泛使用的基准数据集中,选取复杂场景下的图像对,每一个图像对包含一张RGB图以及其对应的深度图;步骤S2:建立RGB

D显著性检测模型的两个特征提取网络;在特征提取网络中,分别由低到高的多个层次提取RGB图与深度图特征,得到五层的RGB特征图与对应的深度特征图;步骤S3:采用基于模态特性的交互方式,使用RGB引导增强模块,对特征提取网络的每一层的深度特征图进行增强,得到增强的深度特征图,并使用Depth引导增强模块对每一层的RGB特征图进行增强,得到增强的RGB特征图;步骤S4:采用分层次的重连接融合方式,先特征图输入语义重连接融合模块,得到语义特征图,接着将特征图输入空间重连接融合模块,得到空间特征图;步骤S5:将空间特征图和语义特征图进行最终融合,得到最终的基于模态特性与分层融合的RGB

D显著性检测模型;步骤S6:输入的复杂场景下的图像对,通过最终的基于模态特性与分层融合的RGB

D显著性检测模型后,输出包含显著对象的预测图像对。2.根据权利要求1所述的基于模态特性与分层融合的RGB

D显著性检测方法,其特征在于,步骤S3中的RGB引导增强模块的具体操作为:连接深度特征图和RGB特征图,将两种模态连接后的特征图进行通道调整后,分别传入一个3
×
3和一个7
×
7的并行卷积层中;3
×
3卷积核提取局部特征信息,7
×
7卷积核提取多尺度的全局显著目标特征,得到拥有多尺度特征信息的融合特征图;然后对输入的深度特征图进行最大池化,得到深度特征图的空间特征掩码;将空间特征掩码与融合特征图进行像素级乘法运算,再与原深度特征图相加,得到增强的深度特征图。3.根据权利要求1所述的基于模态特性与分层融合的RGB

D显著性检测方法,其特征在于,步骤S3中的Depth引导增强模块具体操作为:深度特征图分别通过两个1
×
1卷积层调整通道数,并进行重排生成深度特征描述向量和深度通道描述向量;将深度通道描述向量转置后,与深度特征描述向量进行向量矩阵相乘,得到深度通道特征描述子;将深度通道特征描述子传入多层感知机进行非线性激活,得到增强的完整深度通道特征图,将RGB特征图与增强的完整深度通道特征图进行像素级相加,得到增强的RGB特征图。4.根据权利要求1所述的基于模态特性与分层融合的RGB

D显著性检测方法,其特征在于,步骤S4中的语...

【专利技术属性】
技术研发人员:谢欢戴蒙
申请(专利权)人:上海应用技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1