坐标注意力过滤的特征引导多模态融合RGB-D显著性目标检测制造技术

技术编号:37846443 阅读:27 留言:0更新日期:2023-06-14 22:31
本发明专利技术公开了坐标注意力过滤的特征引导多模态融合RGB

【技术实现步骤摘要】
坐标注意力过滤的特征引导多模态融合RGB

D显著性目标检测


[0001]本专利技术涉及计算机视觉、深度学习领域,更具体地说,涉及坐标注意力过滤的特征引导多模态融合RGB

D显著性目标检测。

技术介绍

[0002]显著性目标检测是在自然场景图像中定位出最引人注目的对象。其已经被广泛应用到计算机视觉的任务中,例如,图像分割、视频分割、图像检索,图像内容编辑等领域。
[0003]近年来,受益于卷积神经网络的快速发展,显著性目标检测任务取得了很大的成功,但是应对一些具有挑战性和复杂的场景中,例如显著性目标与背景对比度较低或者在图像中存在多目标等场景时,很多方法难以清晰和完整的预测出目标对象。随着微软Kinect深度传感器和华为手机的广泛使用,深度图很容易被这些工具所采集。
[0004]深度图相对于RGB图像表现出更好的位置和形状,于是产生了很多RGB

D显著性目标检测方法。相比之前仅仅采用RGB图像作为训练的模型,增加深度图作为辅助信息的模型能够提高检测的性能。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.坐标注意力过滤的特征引导多模态融合RGB

D显著性目标检测,其特征在于:包括以下步骤:S1:输入模型的数据集:在NJU2K数据集中选取1485幅图像对和在NLPR数据集中选取700幅图像对作为训练集,输入模型中;S2:对数据集进行特征提取:将输入的图像经过1次普通卷积层(Cov)和4次残差卷积层(Res),其中残差卷积层采用的是Resnet50架构的前4层;S3:坐标注意力过滤的深度特征引导多模态融合模块:设计一个基于坐标注意力过滤的深度特征引导多模态融合模块,并将其嵌入网络的高层,利用坐标注意力抑制深度图中的噪声,同时也可以在很大程度上抑制RGB图像中非显著性区域,从而帮助模型更加精准地定位和识别显著性的区域;S4:上下文感知内容模块;S5:密集解码引导模块:设计一个密集解码引导模块,我们密集的连接模块以更高级别的编码器特征来生成语义块DS,它用于约束当前对应编码层的跳跃信息的引入。通过密集连接操作,使得层层上采样的特征图具有高级别语义特征的指导,以增强和细化逐层生成的显著图。2.根据权利要求1所述的坐标注意力过滤的特征引导多模态融合RGB

D显著性目标检测,其特征在于:所述S1中,数据集包括2种类型的数据,分别为RGB图像和深度图。3.根据权利要求1所述的坐标注意力过滤的特征引导多模态融合RGB

D显著性目标检测,其特征在于:所述S2中,提取的RGB特征和深度图特征分别记为和I∈{1,2,3,4,5}表示特征图的层数。4.根据权利要求1所述的坐标注意力过滤的特征引导多模态融合RGB

D显著性目标检测,其特征在于:所述S3中,为了更加有效的利用深度图特征信息,本文采用坐标注意力过滤深度图的噪声,对输入的深度图先使用尺寸(H,1)和(1,W)的池化卷积核沿着水平坐标方向和竖直坐标方向对每个通道进行编码,特征图为H
×
W的C个通道的输出表述如下:W的C个通道的输出表述如下:上述两个变换沿着两个空间方向进行特征聚合,这两种变换允许注意力模块捕捉到沿着一个空间方向的长程依赖,并保存沿着另一个空间方向的精确位置信息,这有助于网络更准确地定位目标。5.根据权利要求4所述的坐标注意力过滤的特征引导多模态融合RGB

D显著性目标检测,其特征在于:所述S3中,利用坐标向量产生具有全局感受野并拥有精确位置的特征信息生成坐标注意力图,生成注意力图具体操作如下所示:首先级联上述生成的两个特征图,生成空间信息在水平方向和竖直方向的特征图。然后使用一个共享的1
×
1卷积进行变换,接着,沿空间维度将级联的特征图切分为两个单独
的特征图Z

【专利技术属性】
技术研发人员:孟令兵袁梦雅时雪涵
申请(专利权)人:安徽信息工程学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1