基于双重注意力特征融合网络的目标跟踪方法与系统技术方案

技术编号:37421066 阅读:19 留言:0更新日期:2023-04-30 09:43
本发明专利技术提出一种基于双重注意力特征融合网络的目标跟踪方法与系统,所述方法包括:构建基于Transformer的多尺度特征融合网络;通过编码器对模板特征图中的特征进行学习,以得到高置信值目标建议框;将目标建议框输入到解码器中,对搜索区域特征进行学习融合以获取置信值最高的目标建议框;将注意力快速聚焦到感兴趣区域并捕获结构化空间信息和局部信息,利用编码器中的结构化空间信息进而探索全局上下文信息;利用将模板特征和搜索区域特征融合后的特征,送入到预测头以得到跟踪目标在搜索区域的最大响应位置进行跟踪。本发明专利技术使得跟踪器可以很好应对跟踪过程中出现的严重遮挡、尺度变化、背景复杂等困难,实现更准确和鲁棒的跟踪。跟踪。跟踪。

【技术实现步骤摘要】
基于双重注意力特征融合网络的目标跟踪方法与系统


[0001]本专利技术涉及计算机视觉与图像处理
,特别涉及一种基于双重注意力特征融合网络的目标跟踪方法与系统。

技术介绍

[0002]视频跟踪是一项重要的计算机视觉任务,在自动驾驶、视觉定位、视频监控以及行人跟踪等方面都有着广泛的应用。视频跟踪的目的是在初始化第一帧的情况下,在后续帧中预测出感兴趣目标的位置。由于有限的训练数据和大量现实场景的挑战,如遮挡、形变、背景复杂以及尺度变化等,视频跟踪仍然是一项非常具有挑战性的任务。
[0003]目前,基于卷积神经网络的孪生网络跟踪器被广泛应用于视觉跟踪领域。卷积神经网络的目的是通过特定的网络对目标进行特征提取,然后根据提取出的特征来对目标进行后续处理,如分类与检测等。在基于孪生网络的跟踪器中,卷积神经网络的使用让跟踪器的性能得到了很大的提升。此外,对于很多计算机视觉任务如目标跟踪,上下文信息显得至关重要。Transformer可以通过使用编码器

解码器架构中的注意力来探索连续帧之间丰富的上下文信息,从而取得较好的跟踪性能。
[0004]然而,使用Transformer结构的跟踪算法,由于每一个点都需要去捕捉全局的上下文信息,无形之中会导致丢失掉很多关键的局部信息,这对于跟踪器的性能也会产生较大的影响。因此,如何能够在不丢失大量有用的局部信息的前提下,也能够有效地探索连续帧之间的上下文信息,成为了提升跟踪器性能的一个关键性因素。

技术实现思路

[0005]鉴于上述状况,本专利技术的主要目的是为了解决现有技术中,部分视觉跟踪算法由于忽略了全局上下文信息与局部信息之间的紧密联系,导致丢失大量局部信息,且由于自注意力的大量使用导致很多冗余计算,进而导致很难处理复杂外观变化及遮挡等所带来影响的问题。
[0006]本专利技术实施例提出一种基于双重注意力特征融合网络的目标跟踪方法,其中,所述方法包括如下步骤:步骤一,初始化卷积:在孪生网络框架下,初始化第一帧的模板分支图像与后续搜索帧的搜索区域图像,通过四层深度卷积神经网络以分别得到模板图像特征与搜索区域特征;步骤二,特征学习:通过框注意力与实例注意力构建得到基于Transformer的多尺度特征融合网络;通过基于框注意力的Transformer编码器对所述模板图像特征进行学习,以得到多尺度的高置信值目标建议框;将所述多尺度的高置信值目标建议框输入到基于实例注意力的Transformer解码器中,同时对所述搜索区域特征进行学习,通过对特征学习后的模板图像特征与特征学习
后的搜索区域特征进行融合,以获取得到置信值最高的目标建议框;步骤三,网络训练:利用大规模数据集对所述基于Transformer的多尺度特征融合网络进行训练,并对所述基于Transformer的多尺度特征融合网络模型中的模型参数进行调整;步骤四,学习聚合:利用经过训练后的所述基于Transformer的多尺度特征融合网络,对所述模板分支图像上的目标特征和搜索区域图像上的目标特征的局部区域进行学习,以分别得到对应的局部语义信息,然后分别通过多头框注意力模块和多头实例注意力模块对各所述局部语义信息进行聚合以得到全局上下文信息;步骤五,目标框计算:利用所述基于Transformer的多尺度特征融合网络中的Transformer编码器,通过预定义的参考窗口进行几何变换以生成感兴趣的框,从而捕获得到包含多尺度的高置信值目标建议框,并利用所述Transformer解码器对所述多尺度的高置信值目标建议框进行细化,得到包含最大置信度得分的候选框;其中,框注意力在每个候选框中采样一个网格,并计算网格特征中采样特征的注意力权重;步骤六,目标跟踪:利用将模板图像特征和搜索区域特征融合后的特征,送入到分类回归预测头以得到跟踪目标在搜索区域的最大响应位置,从而进行跟踪。
[0007]本专利技术还提出一种基于双重注意力特征融合网络的目标跟踪系统,其中,所述系统执行如上所述的基于双重注意力特征融合网络的目标跟踪方法,所述系统包括:初始化卷积模块,用于:在孪生网络框架下,初始化第一帧的模板分支图像与后续搜索帧的搜索区域图像,通过四层深度卷积神经网络以分别得到模板图像特征与搜索区域特征;特征学习模块,用于:通过框注意力与实例注意力构建得到基于Transformer的多尺度特征融合网络;通过基于框注意力的Transformer编码器对所述模板图像特征进行学习,以得到多尺度的高置信值目标建议框;将所述多尺度的高置信值目标建议框输入到基于实例注意力的Transformer解码器中,同时对所述搜索区域特征进行学习,通过对特征学习后的模板图像特征与特征学习后的搜索区域特征进行融合,以获取得到置信值最高的目标建议框;网络训练模块,用于:利用大规模数据集对所述基于Transformer的多尺度特征融合网络进行训练,并对所述基于Transformer的多尺度特征融合网络模型中的模型参数进行调整;学习聚合模块,用于:利用经过训练后的所述基于Transformer的多尺度特征融合网络,对所述模板分支图像上的目标特征和搜索区域图像上的目标特征的局部区域进行学习,以分别得到对应的局部语义信息,然后分别通过多头框注意力模块和多头实例注意力模块对各所述局部语义信息进行聚合以得到全局上下文信息;目标框计算模块,用于:
利用所述基于Transformer的多尺度特征融合网络中的Transformer编码器,通过预定义的参考窗口进行几何变换以生成感兴趣的框,从而捕获得到包含多尺度的高置信值目标建议框,并利用所述Transformer解码器对所述多尺度的高置信值目标建议框进行细化,得到包含最大置信度得分的候选框;其中,框注意力在每个候选框中采样一个网格,并计算网格特征中采样特征的注意力权重;目标跟踪模块,用于:利用将模板图像特征和搜索区域特征融合后的特征,送入到分类回归预测头以得到跟踪目标在搜索区域的最大响应位置,从而进行跟踪。
[0008]本专利技术提出一种基于双重注意力特征融合网络的目标跟踪方法与系统,该方法包括:在孪生网络框架下,通过选择框注意力和实例注意力构建基于Transformer的多尺度特征融合网络;通过基于框注意力的编码器对模板特征图中的特征进行学习,以得到包含多尺度的高置信值目标建议框;将编码器中的目标建议框输入到基于实例注意力的解码器中,同时对搜索区域特征图中的特征进行学习,通过对模板特征和搜索区域特征进行融合,以获取置信值最高的目标建议框;对基于Transformer的多尺度特征融合网络进行预训练,利用经过训练后的多尺度特征融合网络,编码器可以将注意力快速聚焦到感兴趣区域,并捕获大量结构化空间信息和局部信息,解码器可以利用编码器中的结构化空间信息进而探索全局上下文信息;利用将模板特征和搜索区域特征融合后的特征,送入到预测头以得到跟踪目标在搜索区域的最大响应位置,从而进行跟踪。本专利技术充分结合框注意力和实例注意力的优势构建基于Transformer的多尺度特征融合网络,使得跟踪器可以很好地应对跟踪过程中出现的严重遮挡、尺度变化、背景复本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于双重注意力特征融合网络的目标跟踪方法,其特征在于,所述方法包括如下步骤:步骤一,初始化卷积:在孪生网络框架下,初始化第一帧的模板分支图像与后续搜索帧的搜索区域图像,通过四层深度卷积神经网络以分别得到模板图像特征与搜索区域特征;步骤二,特征学习:通过框注意力与实例注意力构建得到基于Transformer的多尺度特征融合网络;通过基于框注意力的Transformer编码器对所述模板图像特征进行学习,以得到多尺度的高置信值目标建议框;将所述多尺度的高置信值目标建议框输入到基于实例注意力的Transformer解码器中,同时对所述搜索区域特征进行学习,通过对特征学习后的模板图像特征与特征学习后的搜索区域特征进行融合,以获取得到置信值最高的目标建议框;步骤三,网络训练:利用大规模数据集对所述基于Transformer的多尺度特征融合网络进行训练,并对所述基于Transformer的多尺度特征融合网络模型中的模型参数进行调整;步骤四,学习聚合:利用经过训练后的所述基于Transformer的多尺度特征融合网络,对所述模板分支图像上的目标特征和搜索区域图像上的目标特征的局部区域进行学习,以分别得到对应的局部语义信息,然后分别通过多头框注意力模块和多头实例注意力模块对各所述局部语义信息进行聚合以得到全局上下文信息;步骤五,目标框计算:利用所述基于Transformer的多尺度特征融合网络中的Transformer编码器,通过预定义的参考窗口进行几何变换以生成感兴趣的框,从而捕获得到包含多尺度的高置信值目标建议框,并利用所述Transformer解码器对所述多尺度的高置信值目标建议框进行细化,得到包含最大置信度得分的候选框;其中,框注意力在每个候选框中采样一个网格,并计算网格特征中采样特征的注意力权重;步骤六,目标跟踪:利用将模板图像特征和搜索区域特征融合后的特征,送入到分类回归预测头以得到跟踪目标在搜索区域的最大响应位置,从而进行跟踪。2.根据权利要求1所述的基于双重注意力特征融合网络的目标跟踪方法,其特征在于,在所述步骤二中,框注意力的计算公式表示为:;其中,表示第i个头的框注意力,表示框注意力函数,表示查询向量,表示键向量,表示值向量,表示归一化函数,表示转置操作,,,,表示实数集,表示输入特征图的高乘宽所得到的值,表示网格特征图的边长,表示通道数,表示一个头时特征的维度。3.根据权利要求2所述的基于双重注意力特征融合网络的目标跟踪方法,其特征在于,
在所述多头框注意力模块中,第个注意力头的框注意力的计算方法包括如下步骤:给定查询向量的感兴趣框,使用双线性插值从感兴趣框中提取出大小为的网格特征图;利用位置注意模块将网格特征图转换为关注区域,以使得注意力区域适应目标的外观变化;通过计算查询向量和键向量之间的矩阵乘法以生成得到框注意力系数;利用softmax函数计算框注意力系数以得到查询向量和键向量之间的相似性得分,通过计算相似性得分和网格特征图的线性变换矩阵的加权平均值以得到最终的框注意力。4.根据权利要求3所述的基于双重注意力特征融合网络的目标跟踪方法,其特征在于,对所述网格特征图而言,网格特征图满足如下属性:;对所述框注意力而言,框注意力满足如下属性:。5.根据权利要求4所述的基于双重注意力特征融合网络的目标跟踪方法,其特征在于,在计算框注意力时,位置注意模块的使用方法包括如下步骤:利用表示查询向量的参考窗口,,其中,分别表示参考窗口的中心位置的横坐标与纵坐标,分别表示参考窗口的宽度与高度;利用第一转换函数对参考窗口进行转换,第一转换函数将查询向量和参考窗口作为输入,用于移动参考窗口的中心位置;利用第二转换函数对参考窗口进行调整,第二转换函数将查询向量和参考窗口作为输入,用于调整参考窗口的大小。6.根据权利要求5所述的基于双重注意力特征融合网络的目标跟踪方法,其特征在于...

【专利技术属性】
技术研发人员:王军赖昌旺王员云秦永
申请(专利权)人:南昌工程学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1