当前位置: 首页 > 专利查询>南开大学专利>正文

一种基于级联改良网络的显著性物体检测方法技术

技术编号:23513228 阅读:38 留言:0更新日期:2020-03-18 00:22
本发明专利技术公开了一种基于级联改良网络的RGB‑D显著性物体检测方法,属于图像处理技术领域。大多数现有的RGB‑D模型直接聚合来自不同层级的CNN网络的特征,容易引入低层特征所含有的噪声和干扰信息。本发明专利技术创造性地提出一种级联改良式的结构,用高层部分的特征生成的显著性图作为掩膜来改良低层部分的特征,然后再通过聚合改良后的低层特征生成最终的显著性图;此外,为了排除深度图的干扰信息,本发明专利技术提出一个深度增强模块用于进行深度特征和RGB特征混合前的预处理。本发明专利技术用4个评价指标在7个数据集上进行实验,结果表明本发明专利技术超越当前所有最先进的RGB‑D显著性物体检测方法。

A salient object detection method based on cascaded improved network

【技术实现步骤摘要】
一种基于级联改良网络的显著性物体检测方法
本专利技术属于图像处理
,特别涉及到一种基于级联改良网络的RGB-D显著性物体检测方法。技术背景RGB-D显著性检测目的是RGB图像结合深度信息来发现某个场景中最显著的物体。近年来,各种能够捕获深度信息的智能设备(比如智能手机、体感外设等)得到了普及和广泛地应用,因此大量的RGB-D显著算法被提了出来。早期的RGB-D显著性检测算法主要利用手工特征,这些方法极大地依靠特定的一些知识,比如局部区域对比、全局区域对比、背景先验知识、空间先验知识和通道先验知识等。为了有效地利用手工特征,研究者们利用了各种经典的工具比如支持向量机、马尔科夫链、随机森林算法、元胞自动机等等,这些方法也都取得了可靠的效果。除此之外,各种融合策略也被研究者们探索,比如早期融合即直接把深度图作为除RGB以外的第四个通道输入网络,中期融合即融合来自RGB网络和深度网络的特征,晚期融合即通过相乘或相加混合深度信息和RGB信息各自预测的显著性图等,也取得了不错的效果。随着卷积神经网络(CNN)的流行,各种基于深度网络的算法特别提了出来。早期的深度算法是基于手工特征,利用深度网络进行分类,这种方法依赖人为定义的特征,并且不能够被端对端的训练。为了充分的利用深度信息,研究者们提出了不同的深度网络结构(比如单网络流的、双网络流的、三网络流)和各种多尺度多模态混合策略。但是由于设备采集的深度图可能会含有很多的噪音和误导性信息,所以研究者们提出利用先验知识、深度过滤器单元来改善深度信息。以上的工作虽然考虑到了网络不同层级特征都包含了有效的信息并加以利用,但是却忽略了低层部分特征所含有的噪声和冗余,缺乏对特征的有效利用,这些干扰信息往往会导致生成的显著性图包含背景的干扰;此外,深度特征与RGB信息的结合往往是通过通道上的拼接,元素级的相加或相乘,这些操作并不能有效地减小深度特征和RGB特征模态之间的差异和消除低质量深度图的干扰。
技术实现思路
本专利技术的目的是解决现有RGB-D显著性检测方法中针对各层次特征不加区分直接聚合从而引入了低层部分特征所包含的噪音导致的背景干扰问题,以及针对提高深度特征和RGB特征模态的匹配能力问题,设计了一种基于级联改良网络的RGB-D显著性物体检测方法。本专利技术采用的技术方案是:一种基于级联改良网络的显著性物体检测方法,该方法利用高层部分特征生成的初级显著性图改良低层部分的特征,再通过聚合改良后的低层特征生成最终的显著性图,具体包含如下步骤:第1步、利用两个相同架构的CNN网络,一个网络输入RGB图像提取5个不同层级的RGB特征,另一个网络输入深度图图像提取5个不同层级的深度特征;第2步、将第1步提取到的5个不同层级的深度图像特征分别经过一个深度增强模块(DEM)获得增强后的深度特征,然后将对应层级增强后的深度特征和RGB特征分别融合获得多模态特征,该深度增强模块由两个依次执行的通道注意力操作和空间注意力操作组成。第3步、通过一个级联特征解码器(CascadeDecoder1)聚合第3至第5层的高层部分的多模态特征生成初始的显著性图,并用该初始显著性图作为掩膜通过与第1至第3层的低层部分的多模态特征各个通道分别进行元素级别的乘积操作改良第1至第3层的低层部分的多模态特征。第4步、利用另外一个级联特征解码器(CascadeDecoder2)聚合第1至第3层的低层部分改良后的多模态特征,然后通过一个逐级上采样模块(PTM)生成最终的显著性图。所述的级联特征解码器均是由3个全局信息单元和金字塔式的多层特征乘积和拼接操作组成。本专利技术的优点和有益效果:本专利技术通过深度图过滤器模块有效地利用深度网络中高层特征中所含的语义信息生成相对准确的初始性显著性图,然后用于改良低层部分特征,能够充分抑制住低层特征中噪音的影响并且能够很好的保留住低层特征的细节信息,能够生成具有更好边缘和细节信息的显著性图;另一方面本专利技术提出的深度增强单元能够使网络集中提取深度图中对显著性检测有益的信息,并且能够提高RGB特征和深度特征的模态匹配能力。附图说明图1为本专利技术提出的基于级联改良网络的显著性检测方法具体实施框架图;图2为本专利技术所提出基于级联改良网络的显著性检测方法的深度增强单元(DEM)的具体结构;图3为本专利技术所提出的基于级联改良网络的显著性检测方法中全局信息单元(GCM)的具体结构;图4为本专利技术与10个最先进RGB-D显著性检测方法在4个评价指标上的对比实验,其中包括8个基于深度学习的方法(DMRA、CPFP、TANet、PCF、MMCI、CTMF、AFNet和DF)以及2个传统的手工特征方法(SE和LBE)。具体实施方式:参考图1,本专利技术提出的基于级联改良网络的显著性物体检测方法主要由深度增强单元(DEM)和级联特征解码器(CascadeDecoder)组成,所述的基于级联改良网络的显著性物体检测方法的具体实施步骤如下:1.利用两个相同架构的ResNet50CNN网络,一个网络输入RGB图像提取5个不同层级的RGB特征即另一个网络输入深度图图像提取5个不同层级的深度特征其中RGB网络的输入通道数为3,深度网络的输入通道数为1。2.第1步提取到的5个不同层级的深度图像特征分别经过一个深度增强模块(DEM)获得增强后的深度特征,并且与对应层级的RGB特征通过元素级相加进行融合得到混合模态(多模态)特征即:其中,参照附图2,深度增强模块由两个依次执行的通道注意力操作Catt和空间注意力操作Satt组成,即:上式中⊙表示元素级别上的相乘操作,并且通道注意力操作和空间注意力操作定义为:其中,f表示输入的特征图,M表示一个2层的多层感知机,Pmax表示每一张特征图全局最大池化操作,P′max表示特征图中沿着通道维度上的全局最大池化操作,Conv表示标准的3×3卷积操作,表示对特征图进行维度扩展后再进行元素级上的相乘操作。3.通过一个级联特征解码器(CascadeDecoder1)聚合第3至第5层的高层部分的多模态特征生成初始的显著性图,即:其中D1表示第一级的级联特征解码器,然后用该初始显著性图改良第1至第3层的低层部分的多模态特征得到改良后的特征即:参照附图1,每个级联特征解码器由3个全局信息单元(GCM)和金字塔式的乘积和拼接操作组成。如附图3所示,每个全局信息单元由四个分支组成,对于这四个分支,分别先利用1×1卷积将特征图的通道维度降低到32,对于第1个分支不进行其他额外操作,对于第k(k∈{2,3,4})个分支,先进行卷积核大小为2k-1,扩张率为1的卷积操作,再进行卷积核大小为3×3,扩张率为2k-1的卷积操作用以捕获全局信息,提升感受野。然后4个分支的输出通过通道上拼接在一起,然后再与输入进行残差连接。参照附图1(b)对于全局信息单元输出后的特征每一个输出特征fgcm通本文档来自技高网
...

【技术保护点】
1.一种基于级联改良网络的显著性物体检测方法,其特征在于该方法利用高层部分特征生成的初级显著性图改良低层部分的特征,再通过聚合改良后的低层特征生成最终的显著性图,包含如下步骤:/n第1步、利用两个相同架构的CNN网络,一个网络输入RGB图像提取5个不同层级的RGB特征,另一个网络输入深度图图像提取5个不同层级的深度特征;/n第2步、将第1步提取到的5个不同层级的深度图像特征分别经过一个深度增强模块(DEM)获得增强后的深度特征,然后将对应层级增强后的深度特征和RGB特征分别融合获得多模态特征;/n第3步、通过一个级联特征解码器聚合第3至第5层的高层部分的多模态特征生成初始的显著性图,并用该初始显著性图作为掩膜改良第1至第3层的低层部分的多模态特征;/n第4步、利用另外一个级联特征解码器(Cascade Decoder 2)聚合第1至第3层的低层部分改良后的多模态特征,然后通过一个逐级上采样模块(PTM)生成最终的显著性图。/n

【技术特征摘要】
1.一种基于级联改良网络的显著性物体检测方法,其特征在于该方法利用高层部分特征生成的初级显著性图改良低层部分的特征,再通过聚合改良后的低层特征生成最终的显著性图,包含如下步骤:
第1步、利用两个相同架构的CNN网络,一个网络输入RGB图像提取5个不同层级的RGB特征,另一个网络输入深度图图像提取5个不同层级的深度特征;
第2步、将第1步提取到的5个不同层级的深度图像特征分别经过一个深度增强模块(DEM)获得增强后的深度特征,然后将对应层级增强后的深度特征和RGB特征分别融合获得多模态特征;
第3步、通过一个级联特征解码器聚合第3至第5层的高层部分的多模态特征生成初始的显著性图,并用该初始显著性图作为掩膜改良第1至第3层的低层部分的多模态特征;
第4步、利用另外一个级联特征解码器(CascadeDecoder...

【专利技术属性】
技术研发人员:杨巨峰翟英杰范登平
申请(专利权)人:南开大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1