一种基于多层特征混合与注意力机制的目标跟踪方法技术

技术编号:25711166 阅读:32 留言:0更新日期:2020-09-23 02:57
本发明专利技术公开了一种基于多层特征混合与注意力机制的目标跟踪方法,该方法利用改进的FPN结构将图像浅层特征加以更好的保留利用,这种对浅层特征有更好保留的改进的FPN结构可以输出具有多维度、多尺度特征的融合特征。对不同尺度大小的目标,以及大小在不断变化的目标拥有更好的跟踪能力。将FPN用于级联的RPN上,对于特征提取更加精准,对于保证跟踪时对于相似干扰物有更好的区分,减少错误跟踪的情况发生。同时,利用注意力机制,在空间尺度上,使得网络对目标可能出现的位置给予更多关注,以减少由目标半遮挡,形变,光照等造成的目标丢失或目标跟踪错误的情况。

【技术实现步骤摘要】
一种基于多层特征混合与注意力机制的目标跟踪方法
本专利技术属于图像处理和计算机视觉领域,具体涉及一种基于多层特征混合与注意力机制的目标跟踪方法。
技术介绍
视觉目标跟踪是一项重要的计算机视觉任务,可应用于视觉监控、人机交互、视频压缩等领域。尽管对这一课题进行了广泛的研究,但由于光照变化、部分遮挡、形状变形和相机运动等因素的影响,它在处理复杂的物体外观变化方面仍然存在困难。目标跟踪算法在现阶段主要有两个大的分支,一个是基于相关滤波算法,一个是基于深度学习算法。本专利技术所提出的目标跟踪方法属于深度学习这一分支。深度学习主要有以下几种方法:卷积神经网络;循环神经网络;生成对抗网络;孪生神经网络。“Learningspatial-awareregressionsforvisualtracking,C.Sun,D.Wang,H.Lu,andM.Yang,inProc.IEEECVPR,2018,pp.8962–8970”提出的基于卷积神经网络的目标跟踪方法,构建多个目标模型以捕获各种目标外观,学习不同的目标模型,基于零件的模型、来处理部本文档来自技高网...

【技术保护点】
1.一种基于多层特征混合与注意力机制的目标跟踪方法,其特征在于,该方法包括以下步骤:/n(1)在训练前,对数据集做预处理:训练数据是由视频序列所组成,并带有目标物体位置与大小的标签;目标跟踪网络需要输入的是对应跟踪目标的模板帧和用于寻找目标的搜索帧。将原始视频序列进行裁切处理,获得w

【技术特征摘要】
1.一种基于多层特征混合与注意力机制的目标跟踪方法,其特征在于,该方法包括以下步骤:
(1)在训练前,对数据集做预处理:训练数据是由视频序列所组成,并带有目标物体位置与大小的标签;目标跟踪网络需要输入的是对应跟踪目标的模板帧和用于寻找目标的搜索帧。将原始视频序列进行裁切处理,获得wt×ht像素的模板帧Ft和wc×hc像素的搜索帧Fc,,其中模板帧对应视频序列的第一帧,搜索帧对应视频序列的第二帧开始的剩余视频序列;
(2)设计两个并行的5区块深度残差网络N1、N2用于提取模板帧和搜索帧的特征,通过权值共享的方式构成孪生网络NS,使用的深度残差网络将现有的“ResNet-50”的第一个7×7卷积去掉padding,同时将该“ResNet-50”中最后两次步长为2的卷积改成了步长为1的卷积,将模板帧Ft和搜索帧Fc分别送入N1、N2,通过卷积、池化、激活等操作,提取出其各自在不同深度的特征;ConvM_N(Ft)和ConvM_N(Fc)分别代表了网络不同层次上模板帧Ft和搜索帧Fc的特征输出,其中M代表该特征图所在的ResNet网络中的区块位置,N代表在某一区块中的具体位置;
(3)设计特征金字塔网络FPN,包括三个FPN:FPN1,FPN2和FPN3分别将从网络N1、N2提取的:(Conv1_1、Conv2_3、Conv3_3);(Conv1_1、Conv2_3、Conv4_6);(Conv1_1、Conv2_3、Conv5_3)这3组不同深度的输出特征分别进行融合,获得了3组经过融合的特征,每个FPN接收3个不同尺度的特征图,从大到小、从浅到深分别为F1、F2、F3;特征的融合通过点对点相加完成,通过使用1×1卷积调整一个特征的通道数,使得两个特征通道数相同,再使用2倍上采样或者步长为2的3×3卷积调整另外一个特征的尺寸,使得调整后的两个特征尺寸相同,得以完成点对点相加,即特征融合;将这3种特征进行融合,最终输出融合后的特征FM,且FM的尺寸和F3相同;最终,三个FPN分别输出了模版帧的混合特征FM_1(Ft)、FM_2(Ft)、FM_3(Ft)和搜索帧的混合特征FM_1(Fc)、FM_2(Fc)、FM_3(Fc);
(4)设计区域推荐网络RPN,包括三个RPN:RPN1,RPN2和RPN3通过分别输入三对模版帧与搜索帧的混合特征:FM_1(Ft)、FM_1(Fc);FM_2(Ft)、FM_2(Fc);FM_3(Ft)、FM_3(Fc),获得建议框的分类结果CLS与回归结果REG;
(5)RPN输出建议框的分类CLS与REG回归结果,这两个不同的输出由两条路径来完成,RPN上半部分输出建议框的分类CLS,下半部分输出建议框的回归REG;RPN首先将从模板帧获取的混合特征FM(Ft)从边缘进行裁切,其中c为当前混合特征通道数,不同组合的混合特征通道数不同;之后通过卷积的调整,将FM(Ft)与FM(Fc)调整到合适的尺寸[FM(Ft)]c,[FM(Fc)]c,[FM(Ft)]r,[FM(Fc)]r;将[FM(Ft)]c,[FM(Fc)]c进行互相关运算得到初步的分类结果CLS_O;将[FM(Ft)]r,[FM(Fc)]r进行互相关运算得到初步的回归结果REG_O;
CLS_O的尺寸为wres×hres×2k,REG_O的尺寸为wres×hres×4k,输出的结果中在wres×hres维度与原图wc×hc在空间上呈线性的对应关系,在wres×hres的每一个位置上对应k个预先设定好大小的锚框,锚框的中心为当前所在位置的中心;CLS_O的2k个通道代表了网络预测的k种锚框包含目标的概率Ppos和不包含目标的概率Pneg;REG_O的4k个通道代表了网络预测的k种锚框与实际目标框的长宽差异和位置差异,分别为dx,dy,dw,dh。其与实际目标框的关系为:



其中Ax、Ay表示参考框的中心点,Aw、Ah表示参考框的宽高,Tx、Ty、Tw、Th表示真值的坐标与长宽,最后通过极大值抑制等...

【专利技术属性】
技术研发人员:王正宁曾浩潘力立何庆东刘怡君曾仪彭大伟
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1