一种基于多级特征和上下文信息融合的RGB-D显著性目标检测方法技术

技术编号:38893465 阅读:21 留言:0更新日期:2023-09-22 14:16
本发明专利技术属于计算机视觉领域,公开了一种基于多级特征和上下文信息融合的RGB

【技术实现步骤摘要】
一种基于多级特征和上下文信息融合的RGB

D显著性目标检测方法


[0001]本专利技术涉及计算机视觉和图像处理领域,特别地涉及一种基于多级特征和上下文信息融合的RGB

D显著性目标检测方法。

技术介绍

[0002]近年来,随着互联网的快速发展,智能手机等移动设备越来越普及,语言和文字已经不足以表示信息的丰富程度,图像和视频随之大量进入我们的生活,被越来越多的人接触到。海量的图像数据为我们的生活提供了便利,然而,信息冗余也随着这些便利接踵而来。作为人类,对图像天然敏感,可以快速准确的识别场景中最直观的前景目标,即显著目标。然而,计算机在识别图像中显著性目标是很有挑战性的,如果能够有效的将显著目标和背景区域相互分开,并优先分配有限的计算资源进行后续图像的处理,将很好地缓解计算机资源有限的情况。
[0003]受人类视觉注意力机制的启发,显著性目标检测旨在从现实世界场景中的输入图像中识别最吸引人的物体或区域。作为一种预处理技术,显著性目标检测已广泛应用于许多相关的计算机视觉任务,如对象检测、语义分割、视觉问题解答、视频跟踪、人脸识别等。但是当对象与背景具有相似的外观时,基于RGB图像的显著性目标检测结果并不令人满意。随着可负担的便携式设备(如深度相机)的出现,深度信息变得容易获得,这可以为RGB特征提供补充信息,如空间结构、3D分布、对象边缘等。因此,许多工作试图将深度图集成到RGB显著性目标检测中,即RGB

D显著性目标检测。
[0004]目前,许多RGB

D显著性目标检测方法在不同层次上采用相同的方法融合RGB特征和深度特征。然而,较低级别的特征包含更多的空间细节,而较高级别的特征则包含丰富的语义信息。此外,多尺度上下文语义信息对于高效地定位显著性目标并完整地从背景中分割出来至关重要。针对上述存在问题,本专利技术设计一种基于多级特征和上下文信息融合的RGB

D显著性目标检测方法,以高效利用不同层次的特征和上下文语义信息。具体而言,设计了细节增强融合模块(DEFM)和语义增强融合模块,以融合不同层次的多模态信息,并通过通道注意力和空间注意力的不同组合更有效地提取细节和语义特征。此外设计了一个多尺度感受野增强模块,该模块通过不同大小的卷积核和不同填充率的扩张卷积的并行操作来增加感受野,然后在每个流中添加跳跃连接以使像素采样更密集,因此,该模型可以在特征提取过程中有效地集成上下文信息。

技术实现思路

[0005]针对以上提出的问题,本专利技术提供一种基于多级特征和上下文信息融合的RGB

D显著性目标检测方法,具体采用的技术方案如下:
[0006]1.将VGG

16作为主干框架对RGB图像和深度图像提取多尺度信息然后进行编码。
[0007]1.1)随机选取NLPR数据集的700个样本、NJU2K数据集的1485个样本和DUT数据集
的800个样本作为训练集,将前三个数据集剩余样本及RGBD135和STERE数据集样本归类为测试集;
[0008]1.2)将预训练好得到VGG

16作为主干框架从输入的RGB图像和深度图像提取特征,然后对特征进行编码。
[0009]2.利用提出的细节增强融合模块和语义增强融合模块分别融合低层特征中的细节信息和高层特征中的语义信息;
[0010]2.1)为了在每一层提取更有效的特征用于显著性目标检测,提出了细节增强融合模块(DEFM)融合前两层的特征,以更好地细化显著性边界,使用语义增强融合模块(SEFM)融合后三层的特征,来粗略定位显著对象。
[0011]2.2)前两层的特征由细节增强融合模块来进行融合,使用通道注意力和空间注意力机制来生成增强后的特征,然后再通过元素级联两个增强后的特征,生成新的融合特征,描述如下:
[0012][0013][0014][0015]其中和分别表示来自RGB和深度流的i层特征,Conv3×3表示核为3
×
3的卷积运算。CA(
·
)和SA(
·
)表示通道注意力和空间注意力,F
i+1
表示来自第i+1个融合模块的输出特征。
[0016]2.3)后三层的特征由语义增强融合模块来进行融合,描述如下:
[0017][0018][0019][0020]其中和分别表示来自RGB和深度流的i层特征,Conv3×3表示核为3
×
3的卷积运算。CA(
·
)和SA(
·
)表示通道注意力和空间注意力,F
i+1
表示来自第i+1个融合模块的输出特征。
[0021]3.用多尺度感受野增强模块来获得网络中丰富的上下文信息;
[0022]3.1)构建多尺度感受野增强模块,通过不同大小的卷积核与不同填充率的空洞卷积的并联操作来增大感受野,更好的获取上下文语义信息;
[0023]3.2)首先将步骤(2)中DEFM和SEFM生成的融合特征输入到感受野增强模块中,先通过1
×
1卷积来减少网络模型的计算量和复杂性,然后输入特征分别通过3
×
3、5
×
5、7
×
7的卷积核生成新的特征,具体过程如下:
[0024][0025][0026]其中CA(
·
)代表通道注意力机制,Conv3×3、Conv5×5、Conv7×7分别代表核为3
×
3、5
×
5和7
×
7的卷积操作。
[0027]3.3)然后将新特征输入到填充率为1、2、4的3
×
3卷积核空洞卷积来获得多尺度特征Z1、Z2和Z3,最后将获得的多尺度特征进行级联得到新特征描述如下:
[0028][0029][0030]其中Conv1、Conv2、Conv4代表填充率分别为1、2、4的3
×
3卷积。
[0031]4.构建密集连接特征金字塔解码器,将这些特征输入到解码器中生成显著性结果;
[0032]4.1)将步骤3所获得的多模态特征输入到密集特征金字塔网络构成的解码器中,得到最终的融合特征,在经过sigmoid函数激活,得到预测的显著图。
[0033]本专利技术的优势:本专利技术考虑到不同级别特征之间的差异,提出了细节增强融合模块和语义增强融合模块来更好的融合低级特征中更多的细节信息和高层特征中更多的语义信息。同时为了更好地获取上下文信息,利用不同填充率的空洞卷积来增加网络感受野。随后构建密集特征金字塔解码器来进行多模态特征融合产生最终的显著结果,本文的方法与现有的RGB

D显著性目标检测方法相比具有更好的效果。
附图说明
[0034]图1整体网络流程图
[0035]图2细节增强融合模块示意图
[0036]图3本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多级特征和上下文信息融合的RGB

D显著性目标检测方法,其特征在于,该方法包括以下步骤:(1)将VGG

16作为主干框架对RGB图像和深度图像提取多尺度信息然后进行编码;(2)利用提出的细节增强融合模块和语义增强融合模块分别融合低层特征中的细节信息和高层特征中的语义信息;(3)用多尺度感受野增强模块来获得网络中丰富的上下文信息;(4)构建密集连接特征金字塔解码器,将这些特征输入到解码器中生成显著性结果。2.根据权利要求1所述的一种基于多级特征和上下文信息融合的RGB

D显著性目标检测方法,其特征在于:所述步骤(1)具体方法是:2.1)随机选取NLPR数据集的700个样本、NJU2K数据集的1485个样本和DUT数据集的800个样本作为训练集,将前三个数据集剩余样本及RGBD135和STERE数据集样本归类为测试集;2.2)将预训练好得到VGG

16作为主干框架从输入的RGB图像和深度图像提取特征,然后对特征进行编码。3.根据权利要求1所述的一种基于多级特征和上下文信息融合的RGB

D显著性目标检测方法,其特征在于:所述步骤(2)具体方法是:3.1)为了在每一层提取更有效的特征用于显著性目标检测,提出了细节增强融合模块(DEFM)融合前两层的特征,以更好地细化显著性边界,使用语义增强融合模块(SEFM)融合后三层的特征,来粗略定位显著对象;3.2)前两层的特征由细节增强融合模块来进行融合,使用通道注意力和空间注意力机制来生成增强后的特征,然后再通过元素级联两个增强后的特征,生成新的融合特征,描述如下:如下:如下:其中和分别表示来自RGB和深度流的i层特征,Conv3×3表示核为3
×
3的卷积运算。CA(
·
)和SA(
·
)表示通道注意力和空间注意力,F
i+1
表示来自第i+1个融合模块的输出特征;3.3)后三...

【专利技术属性】
技术研发人员:夏晨星陈迪逢陈玉婷葛斌
申请(专利权)人:安徽理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1