一种结合残差注意力和上下文信息的目标跟踪算法制造技术

技术编号:20625008 阅读:24 留言:0更新日期:2019-03-20 15:33
本发明专利技术请求保护一种结合残差注意力网络和上下文信息的目标跟踪算法,该算法首先将跟踪的视频序列中的第一帧传到卷积层里面得到256张特征图,然后将第一帧的特征图传到残差注意力网络里面得到残差特征图。然后将残差特征图和卷积层特征图结合得到残差响应图。同时将上一帧和当前帧同时传到卷积网络层里面来提取特征图,然后将第一帧的残差响应图,上一帧和当前帧的特征图同时传到三个全连接层里面来预测当前帧中跟踪目标的位置。最后通多输出层来输出当前帧中跟踪目标左上角和右下角的坐标位置。本发明专利技术提高了跟踪算法在目标遮挡等复杂情况下的准确率和鲁棒性。

A Target Tracking Algorithm Combining Residual Attention and Context Information

The invention requests to protect an object tracking algorithm combining residual attention network and context information. The algorithm first passes the first frame of the tracking video sequence into the convolution layer to obtain 256 feature maps, and then passes the feature map of the first frame to the residual attention network to obtain the residual feature map. Then the residual response map is obtained by combining the residual feature map with the convolution layer feature map. At the same time, the last frame and the current frame are simultaneously transmitted to the convolution network layer to extract the feature map, and then the residual response map of the first frame, the feature map of the previous frame and the current frame are simultaneously transmitted to three full-connection layers to predict the location of the tracking target in the current frame. Finally, multi-output layer is used to output the coordinate positions of the upper left and lower right corner of the tracking target in the current frame. The invention improves the accuracy and robustness of the tracking algorithm in complex situations such as target occlusion.

【技术实现步骤摘要】
一种结合残差注意力和上下文信息的目标跟踪算法
本专利技术属于图像处理
,特别涉及基于卷积神经网络的残差注意力机制和融合上下文信息的目标跟踪方法以及两种方法的结合。
技术介绍
目标跟踪算法是计算机视觉领域里面的一个重要的方向有着广泛的应用。越来越多的学者都致力于目标跟踪算法的研究。目标跟踪算法主要分为以下两种:传统的目标跟踪算法、基于卷积神经网络的跟踪算法。传统的目标跟踪算法主要分为产生式模型和判别式模型。生成式模型是将跟踪问题看做搜索与跟踪目标最相近的图像区域,主要包括采用稀疏表示模型、密度估计模型、增量子空间模型等等。判别式模型主要是利用在线学习或者离线训练检测器来区分背景和目标,找出目标所在的位置。这些跟踪算法通常基于多实例学习、P-N学习、结构化支持向量机(supportvectormachineSVM)等分类器。传统算法中由于相关滤波器在计算效率的优异性能,使其在目标跟踪领域备受关注。其中一种具有平均误差的滤波器跟踪速度可以达到每秒百帧。同时一种基于相关滤波的CSK跟踪算法,解决了密集采样问题,并利用了傅里叶变换快速实现了检测过程完成了跟踪。基于卷积神经网络的目标跟踪算法主要分为三大类:基于分类的卷积神经网络目标跟踪、基于回归的卷积神经网络目标跟踪、基于相似度匹配的卷积神经网络目标跟踪。基于分类的卷积神经网络目标跟踪充分的利用了卷积神经网络特征提取和分类的强大能力,通过离线训练和再现微调的方法利用大量的数据离线训练网络,使网络获得通用特征表达能力,再利用第一帧目标周围的正负样本的信息在线微调,大大减少了对于样本的需求,基于回归的卷积神经网络目标跟踪通过输出的热度图直接回归出当前帧中跟踪目标所在的位置。基于相似度匹配的卷积神经网络目标跟踪是将跟踪视频序列中的第一帧或者上一帧作为模板,使用模板和候选区域来进行相似度匹配,相似度最高的区域就是我们要跟踪的目标位置。虽然跟踪算法众多但是仍然存在着一些问题,在复杂场景中仍存在目标形变、光照变化、快速运动、相似背景干扰、遮挡和尺度变化等问题。基于卷积神经网络的跟踪算法虽然可以取得出色的跟踪效果,但是这些算法存在着计算量大,运行速度慢的问题很难达到实时跟踪。基于卷积神经网络的GOTURN算法虽然可以达到每秒百帧但是存在着准确率低,鲁棒性差的问题。我们的算法在孪生网络的基础上增加了残差注意网络和融合了上下文信息,使得我们的算法在兼顾速度的基础上提升了跟踪精度。
技术实现思路
本专利技术旨在解决以上现有技术的问题。提出了一种提升了跟踪精度的结合残差注意力和上下文信息的目标跟踪算法。本专利技术的技术方案如下:一种结合残差注意力和上下文信息的目标跟踪算法,其包括以下步骤:S1、将第一帧已经标注好的的跟踪目标区域,上一帧已经预测的区域和当前帧的搜索区域同时传到卷积层,得到第一帧的卷积特征图、上一帧的卷积特征图及当前帧的卷积特征图;S2、将第一帧的卷积特征图送到残差注意力网络经过五层卷积操作得到残差特征图;S3、将第一帧的卷积特征图和残差特征图进行乘积操作得到残差响应特征图;S4、将第一帧的残差特征响应图、上一帧和当前帧的卷积特征图传到全连接层,通过全连接层将卷积层二维的特征图转成一维的向量,通过全连接层来学习第一帧,上一帧和当前帧三者之间的时空关系;S5、将全连接层的结果输出到输出层得到最后的跟踪结果。进一步的,所述步骤S1的卷积层是使用的CaffeNet(一种深度学习网络结构)网络的前五层卷积层,使用CaffNet在Imagenet(深度学习一种用来训练分类的图片数据集)分类训练的参数模型来初始化网络参数。进一步的,所述步骤S2的残差注意力网络主要是由5层卷积层组成,分别有两层下采样,一层1*1的卷积层,还有两层上采样。第一帧目标区域通过残差网络之后可以得到第一帧的残差特征图。进一步的,所述步骤S3将得到的残差特征图Mi,c(x)和第一帧的卷积特征图Fi,c(x)进行元素乘积操作,得到第一帧跟踪目标的残差特征响应图Mi,c(x)*Fi,c(x)。进一步的,所述S4将第一帧的残差特征响应图、上一帧和当前帧的卷积特征图传到全连接层,通过全连接层将卷积层二维的特征图转成一维的向量,通过全连接层来学习第一帧,上一帧和当前帧三者之间的时空关系;进一步的,所述步骤S5的输出层本质上是由全连接层组成,输出通道数为4,4分别代表跟踪目标的左上角和右下角在当前帧的坐标值。本专利技术的优点及有益效果如下:本专利技术将残差注意力和跟踪目标上下文信息相结合,利用残差注意力网络来提取跟踪目标的高响应残差特征图提高跟踪算法在复杂场景下的鲁棒性。利用上下文信息具有很高的鲁棒性和实时性,建立跟踪目标和它周围信息的时空关系。时间上下文帮助我们目标位置,而空间上下文则能提供更精确的信息帮助我们区分目标和背景。基于以上两点我们的算法可以在兼顾速度的情况下提高跟踪的准确率。附图说明图1是本专利技术提供优选实施例结合残差注意力和上下文信息的目标跟踪算法的流程图;图2A为其他主流算法的结果图;图2B为本算法的结果图;图3为残差注意力网络结构。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本专利技术的一部分实施例。本专利技术解决上述技术问题的技术方案是:本专利技术的方法流程如图1所示。本专利技术涉及了我们跟踪算法的跟踪结果图例如图2、残差注意力网络的网络结构图如图3。具体步骤:步骤S1:我们将第一帧跟踪目标区域,上一帧的预测区域和当前帧的搜索区域同时传到卷积层来提取特征图,我们的卷积层是使用的CaffeNet网络的前五层卷积层,使用CaffNet在Imagenet分类训练的CaffeModel来初始化我们的网络参数。步骤S2:将第一帧在卷积层里面得到的特征图传到残差注意力网络里面,残差注意力网络主要是由5层卷积层组成,分别有两层下采样,一层1*1的卷积层,还有两层上采样。第一帧目标区域通过残差网络之后可以得到第一帧的残差特征图。步骤S3:将我们得到的残差特征图Mi,c(x)和第一帧的卷积特征图Fi,c(x)进行元素乘积操作,得到第一帧跟踪目标的残差特征响应图Mi,c(x)*Fi,c(x)。步骤S4:将第一帧的残差特征响应图、上一帧的预测区域和当前帧的搜索区域的卷积特征图同时传到全连接层里面。步骤S5:将全连接层的结果传到输出层里面得到最后的跟踪结果。我们的输出层本质上是由全连接层组成,输出通道数为4。4分别代表跟踪目标的左上角和右下角在当前帧的坐标值。以上这些实施例应理解为仅用于说明本专利技术而不用于限制本专利技术的保护范围。在阅读了本专利技术的记载的内容之后,技术人员可以对本专利技术作各种改动或修改,这些等效变化和修饰同样落入本专利技术权利要求所限定的范围。本文档来自技高网
...

【技术保护点】
1.一种结合残差注意力和上下文信息的目标跟踪算法,其特征在于,包括以下步骤:S1、将已经标注好的第一帧跟踪目标区域,上一帧已经预测的跟踪目标区域和当前帧的搜索区域同时传到卷积层,得到第一帧的卷积特征图、上一帧的卷积特征图及当前帧的卷积特征图;S2、将第一帧的卷积特征图送到残差注意力网络经过五层卷积操作得到残差特征图;S3、将第一帧的卷积特征图和残差特征图进行乘积操作得到残差响应特征图;S4、将第一帧的残差特征响应图、上一帧和当前帧的卷积特征图传到全连接层,通过全连接层将卷积层二维的特征图转成一维的向量,通过全连接层来学习第一帧,上一帧和当前帧三者之间的时空关系;S5、将全连接层的结果输出到输出层得到最后的跟踪结果。

【技术特征摘要】
1.一种结合残差注意力和上下文信息的目标跟踪算法,其特征在于,包括以下步骤:S1、将已经标注好的第一帧跟踪目标区域,上一帧已经预测的跟踪目标区域和当前帧的搜索区域同时传到卷积层,得到第一帧的卷积特征图、上一帧的卷积特征图及当前帧的卷积特征图;S2、将第一帧的卷积特征图送到残差注意力网络经过五层卷积操作得到残差特征图;S3、将第一帧的卷积特征图和残差特征图进行乘积操作得到残差响应特征图;S4、将第一帧的残差特征响应图、上一帧和当前帧的卷积特征图传到全连接层,通过全连接层将卷积层二维的特征图转成一维的向量,通过全连接层来学习第一帧,上一帧和当前帧三者之间的时空关系;S5、将全连接层的结果输出到输出层得到最后的跟踪结果。2.根据权利要求1所述的一种结合残差注意力和上下文信息的目标跟踪算法,其特征在于,所述步骤S1的卷积层是使用的CaffeNet深度学习网络的前五层卷积层,使用CaffNet在Imagenet图片数据集分类训练的参数模型来初始化网络参数。3.根据权利要求1或2所述的一种结合残差注意力...

【专利技术属性】
技术研发人员:李伟生詹紫微
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1