基于渐进收缩和循环交互网络的显著性目标检测算法制造技术

技术编号:34445633 阅读:63 留言:0更新日期:2022-08-06 16:40
本发明专利技术属于计算机视觉领域,提供了一种基于渐进收缩和循环交互网络的显著性目标检测算法,包括以下步骤:1)利用预训练好的ResNet

【技术实现步骤摘要】
基于渐进收缩和循环交互网络的显著性目标检测算法


[0001]本专利技术涉及计算机视觉领域,具体来说,涉及了基于渐进收缩和循环交互网络的显著性目标检测算法。

技术介绍

[0002]本部分的陈述仅仅是涉及到了与本专利技术相关的
技术介绍
,并不必然构成现有技术。
[0003]受人类视觉感知机制的启发,显著物体检测(SOD)致力于从图像或视频中检测和分割最具吸引力的物体或区域。凭借其快速高效地处理数据的能力,SOD任务被广泛用作诸多计算机视觉任务中的预处理阶段,例如图像检索、视觉跟踪、风格转换、图像或视频压缩等。
[0004]早期的SOD方法通过使用手工特征(例如颜色、纹理、对比度等)预测显著性图。然而,由于对高级语义信息的利用不足,这些显著性检测方法在杂乱背景中检测轮廓复杂的显著目标的能力有限。近年来,全卷积网络(FCNs)由于其高效的多层次特征提取能力,在SOD任务中表现出了强大的性能。
[0005]设计有效的模型体系结构以获取更强大的特征表示一直是SOD任务的研究热点。此外,如何利用不同层次特征的互补信息(即高层语义信息和底层空间细节信息)也是准确显著性检测的关键问题。特征金字塔网络(FPN)结构是用于预测显著性图的一种经典的结构,它通常基于完全卷积网络(FCNs)。典型的特征金字塔网络结构主要包括自下而上路径的编码器、自上而下路径的解码器和一些侧连接。基于特征金字塔网络结构,人们提出了各种各样的SOD方法,并取得了良好的性能。然而,当高层次特征的语义信息指导低层次特征时,这些语义信息会随着网络层数量的增加而被稀释,因此无法有效地定位显著对象进而生成不准确的显著性图。此外,大分辨率特征的集成将导致计算量过大,这将导致推理速度过慢和模型训练困难。

技术实现思路

[0006]为了缓解上述问题,在此专利技术中,我们重新构思了特征金字塔网络(FPN)结构,并提出了渐进收缩和循环交互网络(称为GSCINet),以实现准确高效的显著目标检测任务。该方法由两部分组成,即多尺度上下文注意模块(MSCAM)和相邻特征收缩与交互模块(AFSIM)。与经典的FPN结构不同,GSCINet方法旨在通过逐步聚合和收缩相邻特征以及循环交互策略,减少计算量,增加不同层次上的不同信息交互。更具体地说,我们首先使用MSCAM,通过使用轻量级卷积和不同尺度的通道注意矩阵,同时捕获局部和全局上下文注意信息,这有助于有效地学习更具辨别力的重要特征。随后,采用AFSIM逐步聚合相邻特征,并在循环结构中迭代交互不同级别特征的互补信息,以生成高质量的特征表示。最后,我们以端到端的方式对整个网络进行训练,与11种最先进的SOD方法相比,取得了更好的预测显著性图性能。
[0007]本专利技术的技术方案是提供了一种基于渐进收缩和循环交互网络的显著性目标检测算法,该方法包括以下步骤:
[0008]1.输入RGB图像,利用预训练好的ResNet

50网络作为主干网络提取初始多层次特征;
[0009]1.1)收集显著性目标检测领域相关数据集,包括DUTS

TR数据集,DUT

OMRON数据集,HKU

IS数据集,PASCAL

S数据集和ECSSD数据集。
[0010]1.2)此专利技术,利用具有10553张图像的DUTS数据集作为训练数据集,用于训练模型;利用DUTS

TE,DUT

OMRON,HKU

IS,PASCAL

S和ECSSD数据集作为测试数据集,用于检测模型泛化性能。
[0011]1.3)输入DUTS数据集,利用预训练好的ResNet

50网络提取五个初始多层次特征,并对特征进行编码U={U1,U2,U3,U4,U5}。
[0012]2.基于多尺度上下文注意力模块,利用多个轻量级的卷积操作和通道注意力权重矩阵来捕获局部和全局上下文注意力特征,用于强化初始多层次特征的性能。
[0013]2.1)首先,我们在每个多层次特征U上使用了一个1
×
1卷积核的卷积层、一个批处理规范化(BN)和一个ReLU激活函数来进行降维,使得每个特征的通道数为128。
[0014]2.2)随后,我们采用多个不同扩张率(即0,2,4,6)的扩张深度可分离卷积来捕获多感受野的上下文信息M
i
,由于引入了侧连接,不同尺度的上下文信息具有相关性。相关公式如下所示:
[0015][0016]这里,表示分支第i分支的深度可分离卷积运算,γ表示降维运算,其中包含一个包含1
×1×
128卷积核的卷积层、一个批处理归一化(BN)和一个ReLU激活函数。
[0017]2.3)之后,我们试图利用捕捉到的多尺度上下文信息,学习不同的注意里矩阵,以选择更有用的信息。即,
[0018][0019]其中,σ表示sigmoid激活函数,F1和F2是两个全连接层,τ表示ReLU激活函数,GAP表示全局平均池操作。通过注意权重矩阵可以有效地增强多尺度上下文特征中不同通道的显著性目标信息。其数学公式如下:
[0020][0021]这里,表示第i个分支的和*是元素级乘法运算。
[0022]2.4)最后,不同尺度下的上下文注意力特征信息通过一个单一的特征拼接操作进行聚合,此外我们还并引入剩余连接来生成具有丰富显著性信息的特征O={O1,O2,O3,O4,O5},即,
[0023][0024]这里,γ表示降维操作,Cat表示特征拼接操作,+表示元素相加。
[0025]3.基于相邻特征收缩与交互模块,利用相邻特征收缩策略和循环交互策略来逐渐减少多层次特征的数量和补全多层次特征的信息进而生成高质量特征表示;
[0026]3.1)首先,我们采用相邻特征组合的方式减少多层特征的数量,使五个子层特征逐渐减少为三个子层特征。生成特征T={T1,T2,T3},其可以表示为:
[0027]T
i
=O
i+2
+O
i+1
+O
i
,i=1,2,3
ꢀꢀꢀꢀꢀꢀ
(5)
[0028]这里,+表示元素级相加操作。
[0029]3.2)随后,考虑到不同层次特征的互补性,我们通过循环交互策略对多层次特征T进行交互,即,
[0030][0031][0032]其中,表示第n层次的交互后的多层次特征,+表示元素级加法操作。
[0033]3.3)最后,我们聚合了多层次特征此外,为了进一步增加语义信息和空间细节信息,我们再次引入最高层次特征O5和最低层次特征O1,以生成高质量的特征表示P。整个过程公式如下:
[0034][0035]4.基于高质量特征表示,利用降维和激活操作来生成初始显著性图,并利用混合损失函数进行监督训练。
[0036]4.1)对于生成的高质量特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于渐进收缩和循环交互网络的显著性目标检测算法,其特征在于,该方法包括以下步骤:1)输入RGB图像,利用预训练好的ResNet

50网络作为主干网络提取初始多层次特征;2)基于多尺度上下文注意力模块,利用多个轻量级的卷积操作和通道注意力权重矩阵来捕获局部和全局上下文注意力特征,用于强化初始多层次特征的性能。3)基于相邻特征收缩与交互模块,利用相邻特征收缩策略和循环交互策略来逐渐减少多层次特征的数量和补全多层次特征的信息进而生成高质量特征表示;4)基于高质量特征表示,利用降维和激活操作来生成初始显著性图,并利用混合损失函数进行监督训练。2.根据权利要求1所述的基于渐进收缩和循环交互网络的显著性目标检测算法,其特征在于:所述步骤1)具体方法是:2.1)收集显著性目标检测领域相关数据集,包括DUTS数据集,DUT

OMRON数据集,HKU

IS数据集,PASCAL

S数据集和ECSSD数据集。2.2)此发明,利用具有10553张图像的DUTS数据集作为训练数据集,用于训练模型;利用DUTS

TE,DUT

OMRON,HKU

IS,PASCAL

S和ECSSD数据集作为测试数据集,用于检测模型泛化性能。2.3)输入DUTS数据集,利用预训练好的ResNet

50网络提取五个初始多层次特征,并对特征进行编码U={U1,U2,U3,U4,U5}。3.根据权利要求1所述的基于渐进收缩和循环交互网络的显著性目标检测算法,其特征在于:所述步骤2)具体方法是:3.1)首先,我们在每个多层次特征U上使用了一个1
×
1卷积核的卷积层、一个批处理规范化(BN)和一个ReLU激活函数来进行降维,使得每个特征的通道数为128。3.2)随后,我们采用多个不同扩张率(即0,2,4,6)的扩张深度可分离卷积来捕获多感受野的上下文信息M
i
,引入了侧连接来强化不同尺度的上下文信息具有相关性。相关公式如下所示:这里,表示分支第i分支的深度可分离卷积运算,...

【专利技术属性】
技术研发人员:夏晨星孙延光高修菊段松松
申请(专利权)人:安徽理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1