一种基于全局上下文信息探索的RGB-D显著性目标检测方法技术

技术编号:34011844 阅读:12 留言:0更新日期:2022-07-02 14:47
本发明专利技术属于计算机视觉领域,公开了一种基于全局上下文信息探索的RGB

【技术实现步骤摘要】
一种基于全局上下文信息探索的RGB

D显著性目标检测方法


[0001]本专利技术涉及计算机视觉和图像处理领域,提出了一种新的全局上下文探索网络(GCENet)用于RGB

D显著性目标检测(SOD)任务,以细粒度的方式探索多尺度上下文特征的性能增益。

技术介绍

[0002]显著目标检测旨在从给定场景中分割出最具视觉吸引力的目标。作为一种预处理工具,SOD已经广泛应用于计算机视觉任务,如图像检索,视觉跟踪等。大多数先前的SOD方法集中于RGB图像,但是它们难以处理具有挑战性的场景,例如低对比度环境、相似的前景和背景以及复杂的背景。随着微软Kinect、iPhone XR、华为Mate30等深度传感器设备的普及,RGB

D图像的采集是可行的,也是可以实现的。由于除了纹理、方向和亮度等2D特征之外,深度线索也影响视觉注意,因此RGB

D SOD逐渐受到关注和研究。多尺度上下文特征的有效利用赋予了特征更丰富的全局上下文信息,有利于更好地理解整个场景,提高RGB

D SOD网络的性能。
[0003]受多尺度特征优势的启发,许多RGB

D SOD方法利用多尺度特征的优势来提高性能。然而,它们主要关注分层多尺度表示,不能在单个层中捕获细粒度的全局上下文线索。与这些方法不同的是,本专利技术提出了一个用于RGB

D SOD的全局上下文探索网络(GCENet),以在细粒度级别上探索多尺度上下文特征的增益效应。具体而言,提出了一种跨模态上下文特征模块(CCFM),通过在单个特征尺度上的卷积算子栈从RGB图像和深度图中提取跨模态全局特征,然后在多路径融合(MPF)机制中融合多尺度多模态特征。然后,采用级联聚合的方式对这些融合特征进行融合。此外,需要考虑和整合来自主干的多个块的多尺度信息,以产生最终的显著结果。为此,本专利技术设计了一个多尺度特征解码器(MFD),以自顶向下的聚合方式融合来自多个块的多尺度特征。

技术实现思路
:
[0004]针对以上提出的问题,提出了一种新的全局上下文探索网络(GCENet)用于RGB

D SOD任务,并提出了多尺度特征解码器,具体采用的技术方案如下:
[0005]1.获取训练和测试该任务的RGB

D数据集
[0006]1.1)随机选取NLPR数据集的650个样本、NJU2K数据集的1400个样本和DUT数据集的800个样本作为训练集,将前三个数据集剩余样本及RGBD、STERE、和RGBD数据集样本归类为测试集;
[0007]1.2)NJU2K包含1985对RGB图像和深度图,其中深度图是从立体图像估计的。STERE是第一个提出的数据集,总共包含1000对低质量的深度图。
[0008]2.基于连续卷积层堆叠用来构建跨模态上下文特征模块提取特征信息
[0009]2.1)提出了一种融合跨模态特征的多路径融合(MPF)策略,该策略采用多个元素级操作的协作集合,包括元素级加法、元素级乘法和级联。此外,为了减少跨通道整合过程
中的冗余信息和非显著特征,本专利技术利用空间通道注意机制,以过滤掉不需要的信息;
[0010]2.2)四个RGB特征和深度特征由一叠连续的卷积层提取,描述如下:
[0011][0012]Conv3表示具有3
×
3内核的卷积运算,α∈{R,D},和表示连续四个卷积层的输出。i∈{1,2,3,4,5},代表主干网的第i层;
[0013]2.3)定义多尺度特征的多尺度特征解码器(MFD),MPF计算如下:
[0014][0015]其中,O
ad
、O
ml
和O
ct
分别是元素加法、元素乘法和级联,分别是CCFM第一层的RGB和深度特征,i∈{1,2,3,4,5}表示逐层主干中的第i层;
[0016]2.4)空间通道注意力的实现可以定义如下:
[0017][0018]其中SA和CA分别表示空间注意和通道注意,是在MPF层呈现空间通道注意的增强特征;
[0019]2.5)MPF的剩余层执行与第一层相似的步骤,可以获得另外三个融合特征和最后,采用高级全局信息引导机制来增强不同卷积层的输出的相关性,该机制可以表述如下:
[0020][0021]表示分层主干第i层的特征;
[0022]3.构建多尺度特征解码器
[0023]3.1)自下而上的方式融合和定义如下:
[0024][0025][0026][0027]其中,BN是批标准化层,Conv1表示用于转换通道的卷积层,是MFD第k层的输出,W4是由生成的权重矩阵,Sigmoid表示一种激活函数,UP2表示两次上采集操作;
[0028]3.2)下一步继续上面的步骤直至产生可以用下列公式表示:
[0029][0030]W
t
=Sigmoid(Conv1(FU
t
))
ꢀꢀ
(9)
[0031][0032]其中,t∈{1,2,3},表示25‑
t
倍的上采样,FU
t
表示的融合特征,比包含更多的全局信息,W
t
表示来自FU
t
的权重矩阵;
[0033]4.计算损失函数,在训练阶段,本专利技术采用二元交叉熵(BCE)来训练我们的网络,这是SOD任务中的一个通用损失函数。它在不同的像素执行误差计算,定义为:
[0034][0035]其中,P={p|0<p<1}∈R1×
H
×
W
和G={g|0<g<1}∈R1×
H
×
W
分别表示预测值和相应的真实值,H和W表示输入图像的高度和宽度,L
bce
每个像素预测值和实际值的误差。
[0036]本专利技术与大多数方法采用的分层方式整合主干网络的多尺度特征不同,提出了一种细粒度的方法,在单个特征尺度而不是多个特征尺度上提取和集成多尺度特征,从而在单一层中捕获细粒度的全局上下文线索。首先,提出一种跨模态上下文特征模块(CCFM),通过在单个特征尺度上的卷积算子栈从RGB图像和深度图中提取跨模态全局特征,然后在多路径融合(MPF)机制中融合多尺度多模态特征;接着,采用级联聚合的方式对这些融合特征进行融合;随后,本专利技术设计了一个多尺度特征解码器(MFD),以自顶向下的聚合方式融合来自多个块的多尺度特征来考虑和整合来自主干的多个块的多尺度信息,以产生最终的显著结果。
附图说明
[0037]图1为本专利技术的模型结构示意图
[0038]图2为跨模态上下文特征模块示意图
[0039]图3为多路径融合示意图
具体实施方式
[0040]下面将结合本专利技术本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于全局上下文信息探索的RGB

D显著性目标检测方法,其特征在于,该方法包括一下步骤:1)获取训练和测试该任务的RGB

D数据集,并定义本发明的算法目标,并确定用于训练和测试算法的训练集和测试集;2)基于连续卷积层堆叠用来构建跨模态上下文特征模块提取特征信息;3)定义一叠连续的卷积层和多尺度特征的多尺度特征解码器(MFD)以及空间通道注意力;4)构建多尺度特征解码器,将这些多尺度特征融合到一个自上而下的聚合策略中,并生成显著性结果;5)采用二元交叉熵(BCE)来训练本发明的模型,这也是SOD任务中普遍存在的损失函数。计算出在不同的像素下的预测值和真实值之间的误差。2.根据权利要求1所述的一种基于全局上下文信息探索的RGB

D显著性目标检测方法,其特征在于:所述步骤2具体方法是:2.1)随机选取NLPR数据集的650个样本、NJU2K数据集的1400个样本和DUT数据集的800个样本作为训练集,将前三个数据集剩余样本及RGBD、STERE、和RGBD数据集样本归类为测试集;2.2)NJU2K包含1985对RGB图像和深度图,其中深度图是从立体图像估计的。STERE是第一个提出的数据集,总共包含1000对低质量的深度图。3.根据权利要求1所述的一种基于全局上下文信息探索的RGB

D显著性目标检测方法,其特征在于:所述步骤3具体方法是:3.1)提出了一种融合跨模态特征的多路径融合(MPF)策略,该策略采用多个元素级操作的协作集合,包括元素级加法、元素级乘法和级联。此外,为了减少跨通道整合过程中的冗余信息和非显著特征,本发明利用空间通道注意机制,以过滤掉不需要的信息;3.2)四个RGB特征和深度特征由一叠连续的卷积层提取,描述如下:Conv3表示具有3
×
3内核的卷积运算,α∈{R,D},和表示连续四个卷积层的输出。i∈{1,2,3,4,5},代表主干网的第i层;3.3)定义多尺度特征的多尺度特征解码器(MFD),MPF计算如下:其中,O
ad
、O
ml
和O
ct
分别是元素加法...

【专利技术属性】
技术研发人员:黄荣梅廖涛段松松
申请(专利权)人:安徽理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1