【技术实现步骤摘要】
基于金字塔池化Transformer主干网络的目标跟踪方法与系统
[0001]本专利技术涉及计算机视觉与图像处理
,特别涉及一种基于金字塔池化Transformer主干的目标跟踪方法与系统。
技术介绍
[0002]在计算机视觉领域中,目标跟踪一直都是一个重要研究课题。目标跟踪通过在连续的视频图像序列中估计跟踪目标的位置、形状或所占区域,确定目标的运动速度、方向及轨迹等运动信息,实现对运动目标行为的分析和理解,以便完成更高级的任务。
[0003]目标跟踪无论在军事国防还是民用安全方面都具有重要的研究意义和广阔的应用前景,主要包括自动驾驶、视频监控、人机交互、医学诊断、机器人应用等领域。经过几十年的发展,目标跟踪技术已取得了较好的跟踪效果和实时性。
[0004]近年来,卷积神经网络根据强大的特征建模能力,在目标跟踪领域得到广泛运用,如vgg、resnet网络。但是,卷积神经网络致力于探究特征之间的局部关系,无法对全局依赖性进行有效建模。来自自然语言处理的Transformer架构,利用强大的注意力机制可以对序列数据进行全局建模,从而被广泛应用的目标跟踪领域中。Transformer可以对序列图像块进行全局依赖性建模,但伴随而来的是超高的计算复杂度和空间利用率,这个缺点使得Transformer框架不能满足实时性的要求。基于此,有必要研究出一种既可以全局建模又高效实行的目标跟踪算法。
技术实现思路
[0005]本专利技术提供了一种基于金字塔池化Transformer主干网络的目标跟踪方 ...
【技术保护点】
【技术特征摘要】
1.一种基于金字塔池化Transformer主干网络的目标跟踪方法,其特征在于,所述方法包括如下步骤:步骤1、在孪生网络框架下,基于金字塔池化Transformer模型构建基于金字塔池化Transformer特征提取主干网络,基于金字塔池化Transformer特征提取主干网络包括有两个提取支路;基于标准Transformer的编码器和解码器构成模型预测器,模型预测器和基于金字塔池化Transformer的特征提取主干网络构成目标跟踪模型;步骤2、获取跟踪数据集,从跟踪数据集中采样获取训练模板和测试模板,测试模板中包含视频序列中要跟踪的下一帧图像,训练模板中包含视频序列中标有真实值的第一帧以及被跟踪过目标的帧;采用上一阶段输出作为下一阶段输入的方式,以训练模板和测试模板作为初始输入,利用两个提取支路分别多次提取测试模板以及训练模板的特征,以获得对应的全局上下文信息,将两个提取支路的最终输出分别进行信息编码,以添加目标位置和尺度信息;步骤3、将两个信息编码后的最终输出进行拼接操作,再利用编码器模块进行充分融合,将融合后的特征采用解码器模块预测出一个目标模型,将融合后的特征进行分离,得到便于后续目标分类和边界框回归的加强后的测试模板特征;步骤4、计算所述目标模型和加强后的测试模板特征,得出目标位置以及尺度大小;步骤5、以跟踪数据集作为训练数据重复步骤3至步骤4对目标跟踪模型进行端到端的离线训练;步骤6、利用训练好的目标跟踪模型对视频序列进行目标跟踪。2.根据权利要求1所述的基于金字塔池化Transformer主干网络的目标跟踪方法,其特征在于,在所述步骤2中,利用两个提取支路分别多次提取测试模板以及训练模板的特征方法具体包括如下步骤:步骤2.1、所述测试模板与所述训练模板的图像块分别经过PatchEmbed操作进行空间相对位置学习及维度调整,输出为一维序列特征;步骤2.2、将一维序列特征重塑为二维特征映射,再进行金字塔池化操作;步骤2.3、经过金字塔平均池化后的序列特征进行自注意力计算;步骤2.4、将经过注意力计算的特征映射输入到前馈神经网络中,得到当前阶段输出;采用上一阶段输出作为下一阶段输入的方式循环步骤2.1至步骤2.4两次,以得到最终输出。3.根据权利要求2所述的基于金字塔池化Transformer主干网络的目标跟踪方法,其特征在于,每个阶段的特征提取过程存在如下关系式:;其中,表示当前阶段的输出,,1、2、3分别表示三个阶段,表示LayerNorm正则化,表示前馈神经网络,表示正则化后的特征映射。4.根据权利要求3所述的基于金字塔池化Transformer主干网络的目标跟踪方法,其特征在于,表示正则化的特征映射存在如下关系式:
;其中,表示金字塔池化操作,表示注意力计算,表示池化后的序列特征。5.根据权利要求2所述的基于金字塔池化Transformer主干网络的目标跟踪方法,其特征在于,所述金字塔池化的运算方法具体包括如下步骤:对所述二维特征映射进行具有不同池化比率的平均池化操作,不同池化比率的平均池化操作存在如下关系式:;其中,、和分别表示采用三个不同池化比率的平均池化操作,三个不同池化比率为分别为(6,8,10)、(4,5 ,6)以及(2,3,4),分别表示三个不同池化比率的平均池化后对应的二维特征映射;对平均池化后的特征平铺后再进行级联,得到池化后的序列特征,池化后的序列特征存在如下关系式:;其中,表示平铺及级联操作,表示LayerNorm正则化。6.根据权利要求2所述的基于金字塔池化Transformer主干网络的目标跟踪方法,其特征在于,所述自注意力的计算方法具体如下:采用线性投影方式,利用所述一维序列特征生成,利用所述池化后的序列特征生成和,,,的生成表达式为:;其中,、、分别表示生成、、的线性投影的权重矩阵,、、分别表示查询点、关键点以及价值点;利用,和进行自注意力计算得到注意力特征映射,自注意力计算存在如下关系式:;其中,表示的空间维度,表示转置操作,表示归一化指数激活函数,表示注意力特征映射;将所述注意力特征映射与所述二维特征映射进行残差连接,再经过正则化,得到正<...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。