一种基于级联的上下文感知框架的目标跟踪方法技术

技术编号:22818223 阅读:17 留言:0更新日期:2019-12-14 13:33
本发明专利技术公开了一种基于级联的上下文感知框架的目标跟踪方法,所述方法提出了一个基于两个网络的级联的上下文感知框架,其包括两个子网络:一个基于图像的上下文感知网络ICANet和一个基于图像块的上下文感知网络PCANet。该框架渐近地建模了各种目标与其上下文信息之间的各种变化。第一个网络关注的是目标与其上下文之间最具判别力的信息以及目标粗略的结构,第二个网络关注的是目标自身的细致的结构信息。根据这两个网络的输出—最终的上下文感知图,可以灵活地生成目标的定位框,有效地区分目标与其周围干扰物等背景信息。本发明专利技术所获得的FCA map能够灵活地嵌入到多种跟踪框架中。

A target tracking method based on cascaded context aware framework

【技术实现步骤摘要】
一种基于级联的上下文感知框架的目标跟踪方法
本专利技术涉及一种目标跟踪方法,具体涉及一种基于级联的上下文感知框架的目标跟踪方法。
技术介绍
基于卷积神经网络(CNNs)的强大的表示能力,研究者们提出了大量的基于卷积神经网络的跟踪器。其中,大多数跟踪器使用矩形框来标记目标的位置。在这种情况下,目标模型将或多或少的包含上下文信息。而且,忽略上下文信息可能对跟踪性能造成很大的影响。首先,从有限的空间区域学习目标模型可能会导致过度拟合,且对于目标外观的快速变化并不鲁棒。其次,缺乏真正意义上的负样本将大大削弱跟踪器对于复杂背景的鲁棒性,特别是当目标与其上下文环境中存在相似的视觉信息时将大大增加跟踪漂移现象出现的风险。第三,当上下文信息没有充分考虑时,跟踪器难以有效处理目标遭遇遮挡的情况。现有的目标跟踪算法大多只针对目标局部范围内的上下文信息,对于整幅输入图像的上下文信息很少关注,使得存在于整幅图像范围内的干扰物和背景信息被忽略,从而影响了跟踪算法的鲁棒性。
技术实现思路
为了减少背景对跟踪器的干扰,关注整个图像每个角落的上下文信息,同时解决现有目标跟踪算法存在的上述问题,本专利技术提供了一种基于级联的上下文感知框架的目标跟踪方法。本专利技术的目的是通过以下技术方案实现的:一种基于级联的上下文感知框架的目标跟踪方法,包括如下步骤:步骤一、构建基于级联的上下文感知框架(CAT),所述上下文感知框架包括两个子网络:一个基于图像的上下文感知网络(ICANet)和一个基于图像块的上下文感知网络(PCANet),其中:ICANet的输入为整幅图像,用以捕获整幅输入图像范围内的背景信息,PCANet用以区分目标局部范围内的相似干扰物;步骤二、通过ICANet学习图像级的上下文感知图(ICAmap),捕捉目标与周围上下文之间最具判别力的特征以及目标的大概结构信息;步骤三、通过PCANet学习图像块级的上下文感知图(PCAmap),基于该PCAmap获得目标的自身结构信息并抑制干扰物的信息;步骤四、在获得ICAmap和PCAmap之后,将PCAmap的像素映射到ICAmap以此来得到最终的上下文感知图(FCAmap);步骤五、基于最终的上下文感知图(FCAmap),使用两种策略来获得目标的定位框,其中:策略一、在FCAmap对每个像素使用sigmoid,然后通过将FCAmap二值化(阈值为0.5)获得二值掩模,根据该二值掩模,通过轴对齐的边界矩形生成边界框;策略二、将FCAmap嵌入到贝叶斯框架中,即根据候选样本属于目标的可能性计算最大后验估计。相比于现有技术,本专利技术具有如下优点:1、本专利技术提出了一个基于两个网络的级联的上下文感知框架,其包括一个ICANet和一个PCANet。该框架渐近地建模了各种目标与其上下文信息之间的各种变化。第一个网络关注的是目标与其上下文之间最具判别力的信息以及目标粗略的结构,第二个网络关注的是目标自身的细致的结构信息。根据这两个网络的输出—最终的上下文感知图,可以灵活地生成目标的定位框,有效地区分目标与其周围干扰物等背景信息。2、本专利技术所获得的FCAmap能够灵活地嵌入到多种跟踪框架中。附图说明图1为本专利技术提出的CAT框架的总体流程图;图2为ICANet的架构;图3为PCANet的架构;图4为可视化结果,(a)标签,(b)FCAmap没有LBoundary的可视化结果,(c)FCAmap添加LBoundary的可视化结果;图5为在OTB100数据集上的准确率和成功率表,(a)准确率,(b)成功率;图6为在TC128数据集上的准确率和成功率表,(a)准确率,(b)成功率;图7为本专利技术提出的CAT跟踪器在具有挑战性的序列的可视化结果。具体实施方式下面结合附图对本专利技术的技术方案作进一步的说明,但并不局限于此,凡是对本专利技术技术方案进行修改或者等同替换,而不脱离本专利技术技术方案的精神和范围,均应涵盖在本专利技术的保护范围中。本专利技术提供了一种基于级联的上下文感知框架的目标跟踪方法,所述方法包括如下步骤:一、图像级上下文感知网络(ICANet)本专利技术认为循环结构对于生成对象上下文图像非常重要,因为它可以帮助网络知晓对象在连续帧中的位置。如图1所示,循环结构以循环方式生成图像级的上下文感知图(ICAmap)。整个网络由一个特征提取器(VGG-M中的五个卷积层conv1-conv5)和额外的五个附加模块组成,每个附加模块由卷积层、平均池化层、卷积LSTM单元和反卷积层组成。对于ICANet,目标和背景被视为二元分类问题。在大多数情况下,目标与其上下文之间存在着相反的信息。为了捕获这样的相反信息,本专利技术提出从特征本身中减去特征的平均值。该平均值由核大小为3×3的平均池化层实现。在大多数情况下,与目标的外观变化相比,上下文的变化相对较慢。因此,本专利技术选择LSTM来处理这种长期依赖性。如图2所示,卷积LSTM单元(粉红色矩形)由输入门It、遗忘门Ft、细胞状态Ct和输出门Ot组成。在时间维度上,门和状态之间的关系可表示为:其中,Xt是对比层生成的特征。细胞状态Ct将被输入下一个LSTM。隐输出由Ht表示。*是卷积运算。W*为所要学习的参数。b*为偏置项。⊙为点乘运算。tanh为正切运算。LSTM的输出与相反特征串联在一起,将其送入反卷积层。在五个附加模块之后,将不同大小的特征图上采样到输入大小。最后,在最后一个反卷积后连接一个核大小为1×1的卷积层,以产生一个单通道的得分图。对于损失函数,本专利技术将输出视为似然概率,且目标/背景像素的分布会存在失衡,此处采用类平衡交叉熵损失函数用于训练:其中,K是训练像素的总数,Qk是高斯形状的标签,Pk是预测概率。二、图像块级上下文感知网络(PCANet)ICANet的结构基于2DCNN和卷积LSTM,它通常专注于捕获较为粗糙和长期的时间依赖。然而,这种架构可能缺乏在局部时空窗口中表示更为精细的结构信息的能力。此外,ICANet的输出为高斯形状图,在某些情况下,输出无法描述目标的准确轮廓。图3展示了PCANet的网络结构。本专利技术从当前帧中裁剪一个出一个图像块,该图像块的中心位于ICAmap的最高响应区域。PCANet由特征提取器(ICANet中的前三个卷积层)和其余的三个附加模块组成。每个附加模块由用于减小特征尺寸的卷积层,用于建模自身结构的RNN单元和用于递进地增大特征到输入大小的反卷积层组成。PCANet旨在获得目标本身的结构。然而,目标特征的分辨率较低,且目标仅占图像的一小部分。为了捕获目标的完整结构,需要构建具有高分辨率的特征图。本专利技术通过扩大每次激活的感受野来满足这一要求。为此,删除VGG-M网络中的conv1和conv2之后的最大池化层。在此操作之后,conv3的输出特征图比原始的VGG-M网络中的特征图大四倍。该操作能够提取本文档来自技高网...

【技术保护点】
1.一种基于级联的上下文感知框架的目标跟踪方法,其特征在于所述方法包括如下步骤:/n步骤一、构建基于级联的上下文感知框架CAT,所述CAT包括两个子网络:一个基于图像的上下文感知网络ICANet和一个基于图像块的上下文感知网络PCANet,其中:ICANet的输入为整幅图像,用以捕获整幅输入图像范围内的背景信息,PCANet用以区分目标局部范围内的相似干扰物;/n步骤二、通过ICANet学习图像级的上下文感知图ICA map,捕捉目标与周围上下文之间最具判别力的特征以及目标的大概结构信息;/n步骤三、通过PCANet学习图像块级的上下文感知图PCA map,基于该PCAmap获得目标的自身结构信息并抑制干扰物的信息;/n步骤四、在获得ICA map和PCA map之后,将PCA map的像素映射到ICA map以此来得到最终的上下文感知图FCA map;/n步骤五、基于最终的FCA map获得目标的定位框。/n

【技术特征摘要】
1.一种基于级联的上下文感知框架的目标跟踪方法,其特征在于所述方法包括如下步骤:
步骤一、构建基于级联的上下文感知框架CAT,所述CAT包括两个子网络:一个基于图像的上下文感知网络ICANet和一个基于图像块的上下文感知网络PCANet,其中:ICANet的输入为整幅图像,用以捕获整幅输入图像范围内的背景信息,PCANet用以区分目标局部范围内的相似干扰物;
步骤二、通过ICANet学习图像级的上下文感知图ICAmap,捕捉目标与周围上下文之间最具判别力的特征以及目标的大概结构信息;
步骤三、通过PCANet学习图像块级的上下文感知图PCAmap,基于该PCAmap获得目标的自身结构信息并抑制干扰物的信息;
步骤四、在获得ICAmap和PCAmap之后,将PCAmap的像素映射到ICAmap以此来得到最终的上下文感知图FCAmap;
步骤五、基于最终的FCAmap获得目标的定位框。


2.根据权利要求1所述的基于级联的上下文感知框架的目标跟踪方法,其特征在于所述步骤一中,ICANet由一个特征提取器和五个附加模块组成,其中:特征提取器包括VGG-M中的五个卷积层,每个附加模块由卷积层、平均池化层、卷积LSTM单元和反卷积层组成。


3.根据权利要求2所述的基于级联的上下文感知框架的目标跟踪方法,其特征在于所述平均池化层的核大小为3×3。


4.根据权利要求2所述的基于级联的上下文感知框架的目标跟踪方法,其特征在于所述卷积LSTM单元由输入门It、遗忘门Ft、细胞状态Ct和输出门Ot组成,在时间维度上,门和状态之间的关系表示为:



其中,Xt是对比层生成的特征,Ct...

【专利技术属性】
技术研发人员:邬向前卜巍马丁
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:黑龙;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1