基于多尺度自适应融合的RGB-D显著目标检测方法技术

技术编号:36565099 阅读:7 留言:0更新日期:2023-02-04 17:21
本发明专利技术属于图像检测领域,具体涉及基于多尺度自适应融合的RGB

【技术实现步骤摘要】
基于多尺度自适应融合的RGB

D显著目标检测方法


[0001]本专利技术属于图像检测领域,具体涉及基于多尺度自适应融合的RGB

D显著目标检测方法。

技术介绍

[0002]近年来,显著目标检测(Salient Object Detection,SOD)技术以定位和识别场景中最吸引人的区域为目标,受到了广泛的关注。作为一种有效的预处理方法,它已被应用于各种计算机视觉任务,如场景分类、视觉跟踪、图像编辑等。随着Kinect和RealSense等深度相机越来越普及,从RGB

D(“D”指深度)输入中进行显著目标检测正成为一个吸引人的研究方向,研究人员可以从与RGB图像互补的深度图像中学习几何信息和位置信息,这有助于从干扰物中识别出显著的目标,甚至在非常杂乱的环境中也能产生区分性的SOD模型。该任务旨在从RGB和深度信息中检测显著目标。
[0003]考虑到RGB和深度数据的分布之间存在较大差距,现有的RGB

D SOD算法通常侧重于探索有效的融合策略,以建模两者之间的互补信息模式。这些融合策略可分为早期融合、中期融合和晚期融合。尽管这些融合策略提高了显著性模型的性能,但仍存在一些需要考虑的问题。首先,早期融合策略组装RGB

D图像,然后将其输入特征提取器。但是,RGB和深度图像包含异步信息。简单的串联操作将消除两种模式提供的独特功能。此外,特征提取器(如VGG、ResNet等)通常是在基于RGB的基准上预先训练的,它们不足以从合并的RGB

D数据中学习外观和几何特征。第二,中级融合策略是整合RGB和深度图像的跨模态特征的最重要操作。然而,大多数现有算法在网络的不同尺度下设计并使用相同的融合操作,它们忽略了多尺度中特征的独特属性,例如浅尺度中的外观和几何信息、中尺度中的结构线索以及更深尺度中的高层语义特征。尽管已有学者提出考虑到多尺度特征的多样性的算法模型,但融合模块的表示能力较差。因此,这些方法显示出有限的能力,无法从网络的不同层次探索有区别的跨模态特征,并导致最终预测的性能次优。

技术实现思路

[0004]为解决现有技术存在的上述问题,本专利技术提出了一种基于多尺度自适应融合的RGB

D显著目标检测网络。该专利技术基于早期和中期融合策略和跨模态的多尺度交互的研究,提出一个双流网络,通过跨模态融合编码器在浅、中、深多尺度自适应集成RGB

D特征。对于第一个问题,区别于传统的在2D空间早期融合RGB

D图像,本专利技术将其投影到三维空间中,将其表示为点云(PointCloud)数据,通过学习三维空间中的点云表示,显式地建模像素级关系,进一步探索外观和几何信息。对于第二个问题,该专利技术根据每个尺度的特征,应用到基于点云的融合模块中,以充分利用两种模态的互补信息。
[0005]为了达到上述目的,本专利技术的技术方案为:
[0006]基于多尺度自适应融合的RGB

D显著目标检测方法,具体实现步骤如下:
[0007]步骤S1:数据预处理。根据输入的图像组(RGB图像和深度图像),利用双流网络分
别提取两个模态的多尺度特征;
[0008]进一步,所述步骤S1具体为:
[0009]步骤S11:将输入的RGB图像与对应的深度图像,利用VGG

16作为骨干网结合部分解码器,分别独立提取多层次特征;
[0010]步骤S12:利用整体注意力模块处理来自优化层的特征图和初始显著图,精确边缘信息,均匀地分割整个对象;
[0011]步骤S13:输出RGB图像与对应的深度图像的初步预测图;
[0012]步骤S2:采取尺度自适应融合编码器,根据跨模态的多尺度属性整合其层次特征;
[0013]进一步,所述步骤S2具体为:
[0014]步骤S21:对于浅尺度特征,基于PointNet++方法实现特征提取,在3D点云空间中学习特征表示;
[0015]步骤S22:对于中尺度特征,设计空间对比精细化模块,通过挖掘空间对比信息,精确整合多模态特征;
[0016]步骤S23:对于深尺度特征,利用深度感知通道注意力,自适应地增强RGB

D模态下的语义线索表征能力;
[0017]步骤S3:融合多尺度特征,生成预测的显著目标图;
[0018]进一步,所述步骤S3具体为:
[0019]步骤S31:融合多尺度特征;
[0020]步骤S32:将融合后的特征与RGB显著预测图、深度显著预测图整合;
[0021]步骤S33:输出最终预测的显著目标特征图,使用图像真值作为监督;
[0022]步骤S4:根据损失函数训练整个算法,使算法预测结果拟合正确结果;
[0023]步骤S5:利用训练集对RGB

D显著目标检测模型进行训练,并利用验证集对正在训练的模型进行验证,所得的整个算法模型即为RGB

D显著目标检测的工具。
[0024]与现有技术相比,本专利技术具有以下有益效果:
[0025](1)本专利技术研究了有效的早期融合和中期融合策略,并专注于设计多尺度自适应融合模块,以充分探索来自多模态的互补信息。
[0026](2)为了融合多模态特征,该专利技术将每个尺度的特征,输入到基于点云的融合模块中,以充分利用两种模态的互补信息。对于浅尺度特征,使用PointNet++方法学习3D点云空间中的逐点表示,实现邻近详细线索挖掘;对于从浅尺度提取结构信息的中尺度特征,采取空间对比度细化方式集成RGB

D特征,从而实现从RGB

D特征中学习更多的区分表示,充分区分目标和背景;为了增强语义特征在深度尺度上的表示能力,选取深度感知的通道式注意力机制,将同步特征与跨模态特征相关联。
附图说明
[0027]图1是本专利技术设计的整体结构图;
[0028]图2是本专利技术中图像预处理具体过程;
[0029]图3是本专利技术中特征融合具体过程;
[0030]图4是本专利技术中与同领域先进算法的可视化对比结果。
[0031]具体实施方法
[0032]下面将结合具体实施例和附图对本专利技术的技术方案进行进一步的说明。
[0033]基于多尺度自适应融合的RGB

D显著目标检测方法,步骤如下:
[0034]步骤S1:如图2所示,执行数据预处理操作。根据输入的图像组(RGB图像I
c
和深度图像I
d
),利用双流网络分别提取两个模态的多尺度特征;
[0035]所述步骤S1具体为:
[0036]步骤S11:利用VGG

16作为骨干网与部分解码器相结合,处理输入的RGB图像I
c
与对应的深度图像I
d
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于多尺度自适应融合的RGB

D显著目标检测方法,其特征在于,步骤如下:步骤S1:数据预处理;根据输入的图像组,利用双流网络分别提取两个模态的多尺度特征;图像组包括RGB图像和深度图像;步骤S2:采取尺度自适应融合编码器,根据跨模态的多尺度属性整合其层次特征;步骤S3:融合多尺度特征,生成预测的显著目标图;步骤S4:根据损失函数训练整个算法,使算法预测结果拟合正确结果;步骤S5:利用训练集对RGB

D显著目标检测模型进行训练,并利用验证集对正在训练的模型进行验证,所得的整个算法模型即为RGB

D显著目标检测的工具。2.如权利要求1所述的基于多尺度自适应融合的RGB

D显著目标检测方法,其特征在于,所述步骤S1,具体为:步骤S11:将输入的RGB图像与对应的深度图像,利用VGG

16作为骨干网结合部分解码器,分别独立提取多层次特征;步骤S12:利用整体注意力模块处理来自优化层的特征图和初始显著图,精确边缘信息,均匀地分割整个对象;步骤S13:输出RGB图像与对应的深度图像的初步预测图。3.如权利...

【专利技术属性】
技术研发人员:孔雨秋王鹤
申请(专利权)人:大连理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1