基于金字塔池化Transformer主干网络的目标跟踪方法与系统技术方案

技术编号:38735863 阅读:11 留言:0更新日期:2023-09-08 23:22
本发明专利技术提出一种基于金字塔池化Transformer主干网络的目标跟踪方法与系统,该方法包括:在孪生网络框架下,构建基于金字塔池化Transformer特征提取主干网络,基于标准Transformer的编码器和解码器模型,构建得到目标模型预测器;模型预测器和该特征提取主干网络构成目标跟踪模型,通过特征提取主干网络对训练模板以及测试模板进行特征提取;通过模型预测器,利用提取出的训练模板特征以及测试模板特征进行目标模型预测;通过目标模型对跟踪对象进行分类和边界框回归从而实现目标跟踪。本发明专利技术可有效减低多头自注意力机制的计算复杂度,最终实现更加高效且准确的目标跟踪。踪。踪。

【技术实现步骤摘要】
基于金字塔池化Transformer主干网络的目标跟踪方法与系统


[0001]本专利技术涉及计算机视觉与图像处理
,特别涉及一种基于金字塔池化Transformer主干的目标跟踪方法与系统。

技术介绍

[0002]在计算机视觉领域中,目标跟踪一直都是一个重要研究课题。目标跟踪通过在连续的视频图像序列中估计跟踪目标的位置、形状或所占区域,确定目标的运动速度、方向及轨迹等运动信息,实现对运动目标行为的分析和理解,以便完成更高级的任务。
[0003]目标跟踪无论在军事国防还是民用安全方面都具有重要的研究意义和广阔的应用前景,主要包括自动驾驶、视频监控、人机交互、医学诊断、机器人应用等领域。经过几十年的发展,目标跟踪技术已取得了较好的跟踪效果和实时性。
[0004]近年来,卷积神经网络根据强大的特征建模能力,在目标跟踪领域得到广泛运用,如vgg、resnet网络。但是,卷积神经网络致力于探究特征之间的局部关系,无法对全局依赖性进行有效建模。来自自然语言处理的Transformer架构,利用强大的注意力机制可以对序列数据进行全局建模,从而被广泛应用的目标跟踪领域中。Transformer可以对序列图像块进行全局依赖性建模,但伴随而来的是超高的计算复杂度和空间利用率,这个缺点使得Transformer框架不能满足实时性的要求。基于此,有必要研究出一种既可以全局建模又高效实行的目标跟踪算法。

技术实现思路

[0005]本专利技术提供了一种基于金字塔池化Transformer主干网络的目标跟踪方法,其中,所述方法包括如下步骤:步骤1、在孪生网络框架下,基于金字塔池化Transformer模型构建基于金字塔池化Transformer特征提取主干网络,基于金字塔池化Transformer特征提取主干网络包括有两个提取支路;基于标准Transformer的编码器和解码器构成模型预测器,模型预测器和基于金字塔池化Transformer的特征提取主干网络构成目标跟踪模型;步骤2、获取跟踪数据集,从跟踪数据集中采样获取训练模板和测试模板,测试模板中包含视频序列中要跟踪的下一帧图像,训练模板中包含视频序列中标有真实值的第一帧以及最近跟踪的帧;采用上一阶段输出作为下一阶段输入的方式,以训练模板和测试模板作为初始输入,利用两个提取支路分别多次提取测试模板以及训练模板的特征,以获得对应的全局上下文信息,将两个提取支路的最终输出分别进行信息编码,以添加目标位置和尺度信息;步骤3、将两个信息编码后的最终输出进行拼接操作,再利用编码器模块进行充分融合,将融合后的特征采用解码器模块预测出一个目标模型,将融合后的特征进行分离,得到便于后续目标分类和边界框回归的加强后的测试模板特征;
步骤4、计算所述目标模型和加强后的测试模板特征,得出目标位置以及尺度大小;步骤5、以跟踪数据集作为训练数据重复步骤3至步骤4对目标跟踪模型进行端到端的离线训练;步骤6、利用训练好的目标跟踪模型对视频序列进行目标跟踪。
[0006]本专利技术依据金字塔池化Transformer模型充分提取输入图像块的全局依赖关系以及上下文信息,并且缩减输入特征的序列长度,从而有效减低多头自注意力机制的计算复杂度,最终实现更加高效且准确的目标跟踪。
[0007]本专利技术还提供一种基于金字塔池化Transformer主干网络的目标跟踪系统,所述系统包括:网络构建模块,用于在孪生网络框架下,基于金字塔池化Transformer模型构建基于金字塔池化Transformer特征提取主干网络,基于金字塔池化Transformer特征提取主干网络包括有两个提取支路;基于标准Transformer的编码器和解码器构成模型预测器,模型预测器和基于金字塔池化Transformer的特征提取主干网络构成目标跟踪模型;特征提取模块,用于获取跟踪数据集,并从跟踪数据集中采样获取训练模板和测试模板,测试模板中包含视频序列中要跟踪的下一帧图像,训练模板中包含视频序列中标有真实值的第一帧以及最近跟踪的帧;采用上一阶段输出作为下一阶段输入的方式,以训练模板和测试模板作为初始输入,利用两个提取支路分别多次提取测试模板以及训练模板的特征,以获得对应的全局上下文信息,将两个提取支路的最终输出分别进行信息编码,以添加目标位置和尺度信息;其中,金字塔池化可以充分探索上下文信息且可以减低特征的序列长度,经过金字塔池化后的特征进行自注意力计算,从而加强特征之间的全局依赖性。最后对测试模板和训练模板特征添加目标的位置和尺度信息,从而实现尺度自适应;模型预测模块,用于将两个信息编码后的最终输出进行拼接操作,再利用编码器模块进行充分融合,将融合后的特征采用解码器模块预测出一个目标模型,将融合后的特征进行分离,得到便于后续目标分类和边界框回归的加强后的测试模板特征;定位回归模块,用于计算所述目标模型和加强后的测试模板特征,得出目标位置以及尺度大小;离线训练模块,用于以跟踪数据集作为训练数据重复目标跟踪模型进行端到端的离线训练;其中,利用大规模目标跟踪数据集对所述整个目标跟踪网络进行端到端的离线训练,得出一个可以适用于各种跟踪挑战的网络模型,进而加强跟踪网络的泛化及实用能力;目标跟踪模块,用于利用训练好的目标跟踪模型对视频序列进行目标跟踪。
[0008]本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实施例了解到。
附图说明
[0009]图 1为本专利技术提出的基于金字塔池化Transformer主干网络的目标跟踪方法的流程图;
图2为本专利技术提出的基于金字塔池化Transformer主干的目标跟踪方法的结构图;图3为本专利技术提出的金字塔池化Transformer主干网络的结构图图4为本专利技术中金字塔池化Transformer主干网络提取特征的原理图;图5为本专利技术中金字塔池化的原理示意图;图6为本专利技术提出的基于金字塔池化Tranformer主干的目标跟踪系统的结构图。
具体实施方式
[0010]下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。
[0011]参照下面的描述和附图,将清楚本专利技术的实施例的这些和其他方面。在这些描述和附图中,具体公开了本专利技术的实施例中的一些特定实施方式,来表示实施本专利技术的实施例的原理的一些方式,但是应当理解,本专利技术的实施例的范围不受此限制。相反,本专利技术的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
[0012]请参阅图1至图5,本专利技术实施例提供一种基于金字塔池化Transformer主干网络的目标跟踪方法,其中,所述方法包括如下步骤:步骤1、在孪生网络框架下,基于金字塔池化Transformer模型构建基于金字塔池化Transformer特征提取主干网络,基于金字塔池化Transformer特征提取主干网络包括有两个提取支本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于金字塔池化Transformer主干网络的目标跟踪方法,其特征在于,所述方法包括如下步骤:步骤1、在孪生网络框架下,基于金字塔池化Transformer模型构建基于金字塔池化Transformer特征提取主干网络,基于金字塔池化Transformer特征提取主干网络包括有两个提取支路;基于标准Transformer的编码器和解码器构成模型预测器,模型预测器和基于金字塔池化Transformer的特征提取主干网络构成目标跟踪模型;步骤2、获取跟踪数据集,从跟踪数据集中采样获取训练模板和测试模板,测试模板中包含视频序列中要跟踪的下一帧图像,训练模板中包含视频序列中标有真实值的第一帧以及被跟踪过目标的帧;采用上一阶段输出作为下一阶段输入的方式,以训练模板和测试模板作为初始输入,利用两个提取支路分别多次提取测试模板以及训练模板的特征,以获得对应的全局上下文信息,将两个提取支路的最终输出分别进行信息编码,以添加目标位置和尺度信息;步骤3、将两个信息编码后的最终输出进行拼接操作,再利用编码器模块进行充分融合,将融合后的特征采用解码器模块预测出一个目标模型,将融合后的特征进行分离,得到便于后续目标分类和边界框回归的加强后的测试模板特征;步骤4、计算所述目标模型和加强后的测试模板特征,得出目标位置以及尺度大小;步骤5、以跟踪数据集作为训练数据重复步骤3至步骤4对目标跟踪模型进行端到端的离线训练;步骤6、利用训练好的目标跟踪模型对视频序列进行目标跟踪。2.根据权利要求1所述的基于金字塔池化Transformer主干网络的目标跟踪方法,其特征在于,在所述步骤2中,利用两个提取支路分别多次提取测试模板以及训练模板的特征方法具体包括如下步骤:步骤2.1、所述测试模板与所述训练模板的图像块分别经过PatchEmbed操作进行空间相对位置学习及维度调整,输出为一维序列特征;步骤2.2、将一维序列特征重塑为二维特征映射,再进行金字塔池化操作;步骤2.3、经过金字塔平均池化后的序列特征进行自注意力计算;步骤2.4、将经过注意力计算的特征映射输入到前馈神经网络中,得到当前阶段输出;采用上一阶段输出作为下一阶段输入的方式循环步骤2.1至步骤2.4两次,以得到最终输出。3.根据权利要求2所述的基于金字塔池化Transformer主干网络的目标跟踪方法,其特征在于,每个阶段的特征提取过程存在如下关系式:;其中,表示当前阶段的输出,,1、2、3分别表示三个阶段,表示LayerNorm正则化,表示前馈神经网络,表示正则化后的特征映射。4.根据权利要求3所述的基于金字塔池化Transformer主干网络的目标跟踪方法,其特征在于,表示正则化的特征映射存在如下关系式:
;其中,表示金字塔池化操作,表示注意力计算,表示池化后的序列特征。5.根据权利要求2所述的基于金字塔池化Transformer主干网络的目标跟踪方法,其特征在于,所述金字塔池化的运算方法具体包括如下步骤:对所述二维特征映射进行具有不同池化比率的平均池化操作,不同池化比率的平均池化操作存在如下关系式:;其中,、和分别表示采用三个不同池化比率的平均池化操作,三个不同池化比率为分别为(6,8,10)、(4,5 ,6)以及(2,3,4),分别表示三个不同池化比率的平均池化后对应的二维特征映射;对平均池化后的特征平铺后再进行级联,得到池化后的序列特征,池化后的序列特征存在如下关系式:;其中,表示平铺及级联操作,表示LayerNorm正则化。6.根据权利要求2所述的基于金字塔池化Transformer主干网络的目标跟踪方法,其特征在于,所述自注意力的计算方法具体如下:采用线性投影方式,利用所述一维序列特征生成,利用所述池化后的序列特征生成和,,,的生成表达式为:;其中,、、分别表示生成、、的线性投影的权重矩阵,、、分别表示查询点、关键点以及价值点;利用,和进行自注意力计算得到注意力特征映射,自注意力计算存在如下关系式:;其中,表示的空间维度,表示转置操作,表示归一化指数激活函数,表示注意力特征映射;将所述注意力特征映射与所述二维特征映射进行残差连接,再经过正则化,得到正<...

【专利技术属性】
技术研发人员:王军杨帅王员云
申请(专利权)人:南昌工程学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1