System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于跨模态融合网络的RGB-D显著性目标检测方法技术_技高网
当前位置: 首页 > 专利查询>新疆大学专利>正文

基于跨模态融合网络的RGB-D显著性目标检测方法技术

技术编号:41180699 阅读:4 留言:0更新日期:2024-05-07 22:15
本发明专利技术属于计算机视觉技术,特别是基于跨模态融合网络的RGB‑D显著性目标检测方法,本发明专利技术采用的跨模态融合网络既能探索共享特征,又能保持特定模态的特征,而且利用一个跨模态特征融合模块(CFIM)来融合特定模态特征并学习两种模态的共享特征,随后,每个CFIM的输出传输到下一层以捕捉多尺度信息,利用一个简单而有效的多模态聚合模块(MFA)来聚合学习到的特定模态特征,充分利用在解码器中学习到的特征来提高显著性目标检测性能。

【技术实现步骤摘要】

本专利技术涉及计算机视觉及图像处理技术,具体涉及基于跨模态融合网络的rgb-d显著性目标检测方法。


技术介绍

1、在计算机视觉领域,显著性目标检测(salient object detection,sod)作为一项极具前瞻性的人类视觉系统研究,致力于将静态或动态场景中最吸引注意力的物体分割出来。显著性目标检测已广泛应用于各项领域,例如图像理解、视频/语义分割、动作识别、行人再识别等。多数显著性目标检测方法主要通过rgb图像来完成检测,然而这些方法在需要检测的图像中遇到具有相似纹理、复杂背景或者同类物体的场景时往往会产生不准确的检测结果。随着深度传感器的普及,深度信息对于在显著性目标检测中减少rgb图像中的冗余与干扰信息并且提供不同模态的辅助补充信息来说至关重要。因此,rgb-d显著性目标检测已经吸引了越来越多的研究关注,任务旨在通过rgb和深度图像发现并分割出视觉上的目标物体。

2、对于rgb-d显著性目标检测,至关重要的是高效的融合rgb和深度信息。现有的融合策略可以分为早期融合、后期融合以及多尺度融合。早期融合策略是将rgb和深度信息进行简单的串联,直接将rgb和深度图像作为四通道输入至模型中。然而,这种融合策略没有考虑这两种模态信息之间的分布差异,可能导致不精确的融合。基于后期融合策略的模型使用两个平行的网络流为rgb和深度信息生成独立的显著图,然后再将两个图像进行融合得到最终的预测结果。但是,这种融合方式很难捕捉到两种模态之间复杂的交互作用。多尺度融合策略利用两个独立的网络分别学习两种模态的中间特征,然后将融合的特征馈送到后续网络或解码器。该方法主要侧重于通过融合共享表示来学习共享特征,然后使用解码器生成最终的显著图。从多模态学习的角度来看,多项研究表明,探索共享信息和特定模态特征可以提高模型的性能。然而,很少有rgb-d显著性检测模型明确利用特定于模态的特征。

3、因此,需要一种既可以探索共享信息,还可以利用特定模态信息来提高显著性目标检测性能的方法。


技术实现思路

1、本专利技术的目的在于提供以一种基于跨模态融合网络的rgb-d显著性目标检测方法,对跨模态特征有效融合,实现共享信息的探索以及利用特定模态来提高显著性目标检测性能。

2、为实现上述目的,本专利技术提供一种rgb-d显著性目标检测方法,具体步骤如下:

3、1.获取该任务的rgb-d数据集,用于训练和测试。

4、1.1)将部分nju2k数据集、nlpr数据集作为训练集,将剩余部分的nju2k数据集、剩余部分的nlpr数据集、sip数据集、ssd数据集、stere数据集和des数据集作为测试集,所述数据集均为现有采用的公共数据集。

5、1.2)rgb-d数据集包括rgb图像irgb、对应的深度图像idepth和对应的人工标注的真值图g。

6、2.利用卷积神经网络构建用于提取rgb图像特征和深度图像特征的显著性目标检测模型网络。

7、2.1)利用双流res2net-50建立的子网络作为主干网络,分别对rgb图像和深度图像进行特征提取,获得rgb图像和深度图像不同层次的特征(f1r、f2r、f3r、f4r、f5r和f1d、f2d、f3d、f4d、f5d,其中上角标表示rgb图像r和深度图像d,下角标表示层数)。

8、3.基于步骤2提取到的多尺度rgb图像特征f1r、f2r、f3r、f4r、f5r和对应的深度图像特征f1d、f2d、f3d、f4d、f5d,利用每层提取的特征进行跨模态特征融合,获得不同层次的共享特征,构建共享解码器。

9、3.1)共享解码器中由5个层次的跨模态特征融合模块(cfim)以及5个层次的rgb图像特征f1r、f2r、f3r、f4r、f5r和对应的深度图像特征f1d、f2d、f3d、f4d、f5d构成并生成5个层次的共享特征f1s、f2s、f3s、f4s和f5s(其中上角标表示共享特征s,下角标表示层数)。

10、3.2)第i层的cfim模块的输入数据为fir和fid,并通过多源整合单元输出第i层的共享特征fis,其中i∈{1,2,3,4,5}。

11、3.3)cfim模块包括两部分,包括跨模态特征增强和自适应特征融合,可以有效地融合跨模态特征,具体过程如下:

12、3.3.1)首先将第i层的rgb特征和深度特征(其中表示特征集合,w、h、c表示第i层特征的高度、宽度和通道数)通过1×1的卷积层使得通道数减少至ci/2,以获得加速效果。

13、3.3.2)本专利技术使用交叉增强策略,通过学习两种模态的增强特征来利用它们之间的相关性。rgb特征和深度特征被送至具有sigmoid激活函数的3×3卷积层中,然后可以获得归一化的特征图和

14、

15、

16、其中,conv3()表示3×3卷积操作,sigmiod()表示sigm1oid激活函数,i∈{1,2,3,4,5}。

17、为了充分利用两种模态之间的相关性,归一化的特征图可以被视为特征级注意力图,以自适应地增强特征表示。此外,为了保留每个模态的原始信息,残差连接适用于将增强的特征与其原始特征相结合。因此,两种模态的交叉增强特征表示fir'和fid',如下所示:

18、

19、

20、其中,表示元素相乘,i∈{1,2,3,4,5}。

21、3.3.3)本专利技术使用自适应融合策略,将获得的交叉增强特征表示(fir'和fid')有效地融合它们。应用元素乘法和最大化,然后将结果连接在一起。具体来说,将两个交叉增强特征表示被馈送到卷积层中,获得平滑表示,然后进行逐个元素相乘和最大化。因此,可以获得:

22、

23、pmax=max(bconv3(fir'),bconv3(fid'))

24、其中,bconv3(·)表示结合3×3卷积层和relu函数的顺序操作,表示元素相乘,max()表示最大化操作,pmul和pmax表示逐个元素相乘和最大化的结果。

25、然后,将逐个元素相乘和最大化的结果连接为pcat=[pmul,pmax],通过bconv3(·)操作获得结合第i-1层cfim的输出结果送至bconv3(·)操作,最后得到共享特征fis:

26、

27、fis=bconv3(bconv3(pcat))(i=1)

28、其中,bconv3(·)表示结合3×3卷积层和relu函数的顺序操作。

29、4.利用u-net结构来构建特定模态解码器(即rgb解码器和深度解码器),编码器和解码器之间使用跳跃连接以结合分层特征,连接特征送入感受场模块(rfb)以捕捉全局上下文信息,获得学习到的特定模态特征(和其中上角标表示rgb解码器r和深度解码器d,下角标表示解码器层数)以及特定模态显著性预测图(sr和sd,其中下角标表示rgb显著性预测图r和深度显著预测图d本文档来自技高网...

【技术保护点】

1.一种基于跨模态融合网络的RGB-D显著性目标检测方法,其特征在于:该方法包括如下步骤:

2.根据权利要求1所述的基于跨模态融合网络的RGB-D显著性目标检测方法,其特征在于:所述步骤1)具体方法是:

3.根据权利要求1所述的基于跨模态融合网络的RGB-D显著性目标检测方法,其特征在于:所述步骤2)具体方法是:

4.根据权利要求1所述的基于跨模态融合网络的RGB-D显著性目标检测方法,其特征在于:所述步骤3)具体方法是:

5.根据权利要求1所述的基于跨模态融合网络的RGB-D显著性目标检测方法,其特征在于:所述步骤4)具体方法是:

6.根据权利要求1所述的基于跨模态融合网络的RGB-D显著性目标检测方法,其特征在于:所述步骤6)具体方法是:

7.根据权利要求1所述的基于跨模态融合网络的RGB-D显著性目标检测方法,其特征在于:所述步骤7)具体方法是:

【技术特征摘要】

1.一种基于跨模态融合网络的rgb-d显著性目标检测方法,其特征在于:该方法包括如下步骤:

2.根据权利要求1所述的基于跨模态融合网络的rgb-d显著性目标检测方法,其特征在于:所述步骤1)具体方法是:

3.根据权利要求1所述的基于跨模态融合网络的rgb-d显著性目标检测方法,其特征在于:所述步骤2)具体方法是:

4.根据权利要求1所述的基于跨模态融合网络的rgb-d显著性目标检...

【专利技术属性】
技术研发人员:何丽李可新王宏伟钟润豪刘哲凝张帅宁子豪
申请(专利权)人:新疆大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1