一种基于注意力机制的特征融合目标跟踪方法技术

技术编号:37979696 阅读:12 留言:0更新日期:2023-06-30 09:54
本发明专利技术涉及计算机视觉技术领域,尤其为一种基于注意力机制的特征融合目标跟踪方法,其方法包括如下步骤:使用ResNet网络对跟踪目标和搜索区域分别进行特征提取,得到两个支路的特征映射图,将二维特征图转换成一维特征序列,利用多头自注意力模块对两个支路的特征进行增强,利用交叉注意力模块对跟踪目标和搜索区域的特征进行交叉融合,以便在搜索区域中准确识别出目标。同时,在搜索区域分支包含了一个局部特征学习模块,与交叉注意力模块构成一个局部全局特征交互网络,把学习到的局部关系和全局关系进行交互融合,实现丰富的特征表示。最后,利用预测网络准确定位跟踪目标。本发明专利技术提出的跟踪方法,充分利用了Transformer和卷积网络的优势,将局部特征与全局特征、跟踪目标特征与搜索区域特征进行融合,使跟踪器能够自适应地关注有用信息,得到更为丰富的语义信息。并且在训练数据量和准确性之间找到了很好的平衡,仅使用GOT

【技术实现步骤摘要】
一种基于注意力机制的特征融合目标跟踪方法


[0001]本专利技术涉及计算机视觉
,具体为一种基于注意力机制的特征融合目标跟踪方法。

技术介绍

[0002]随着科学技术的迅猛发展,计算机视觉越来越受到人们的重视。视觉跟踪是计算机视觉的重要组成部分。其核心作用为通过在一段视频图像序列的初始时刻对特定目标进行分析建模,精准地预测目标在后续任意时刻的空间位置状态,为进一步分析掌握目标的运动趋势和运动行为奠定基础。因此其在视频监控、智能交通、自动驾驶、视觉导航、人机交互、医学诊断以及军事侦察打击等领域得到了广泛而深入的应用。
[0003]由于深度学习技术具有优秀的表征学习能力和灵活的泛化能力,因此视觉目标跟踪迎来了新的发展时期。基于深度学习的目标跟踪方法,在成功率、精度和鲁棒性方面显著超越了其他方法,成为了目前的研究热点。
[0004]目前,基于深度学习的目标跟踪方法主要两种:一种是基于卷积神经网络的方法,最典型的是孪生网络框架。这类方法可以提取目标和搜索区域的局部特征,并进行互相关操作,找到目标位置。该种方法的优点是继承了卷积网络归纳偏置的特点,泛化能力强,计算量小。但有限的感受野使得卷积难以学习全局依赖关系,限制了跟踪性能的进一步提升;另一种是基于Transformer的方法,这类方法可以自适应地捕捉目标对象与搜索区域的全局相似性特征,大幅提升了跟踪性能,但对目标的局部特征提取能力较差,需要大量的训练数据,且计算量大,占用大量GPU资源。

技术实现思路

[0005]本专利技术提供了一种基于注意力机制的特征融合目标跟踪方法,克服了上述现有技术的不足,将transformer与卷积网络融合,对搜索区域和目标的融合结果进行局部

全局特征的学习,实现特征之间的交互融合,定位目标。该方法充分利用了Transformer和卷积网络的优势,使跟踪器能够自适应地关注有用信息,获得了更为鲁棒的跟踪结果和丰富的语义信息。同时所提出的跟踪器在训练数据量和准确性之间找到了很好的平衡,只使用少量数据(GOT

10k数据集)进行训练也能达到很好的效果,并且在GPU下可以实时运行。
[0006]为实现上述目的,本专利技术提供如下技术方案:一种基于注意力机制的特征融合目标跟踪方法,其方法包括如下步骤:
[0007]S1、特征提取:使用ResNet网络对跟踪目标和搜索区域分别进行特征提取,得到两个支路的特征映射图,并将二维特征图转换成一维特征序列;
[0008]S2、特征增强:使用多头自注意力模块对两个支路的特征进行增强;
[0009]S3、支路特征融合:使用交叉注意力模块对跟踪目标和搜索区域的特征进行交叉融合,以便在搜索区域中准确识别出目标。
[0010]S4、局部全局特征融合:在搜索区域分支使用局部特征学习模块,与交叉注意力模
块构成局部全局特征交互融合网络,把学习到的局部和全局依赖关系进行交互融合。
[0011]S5、结果预测:使用预测网络准确定位跟踪目标。
[0012]优选的,所述步骤S1中,对两个支路的图像特征进行提取,计算得到8倍下采样特征,通道维度256。
[0013]优选的,所述步骤S2中,多头自注意力模块包含了前馈神经网络,多头数为8。
[0014]优选的,所述步骤S3中,两个支路的交叉融合次数为2,最后再单独进行1次融合。
[0015]优选的,所述步骤S4中,局部特征学习模块是一个卷积模块,包括1个5x5的深度卷积块和4个1x1卷积块。
[0016]与现有技术相比,本专利技术的有益效果如下:
[0017]本专利技术提出的基于注意力机制的特征融合目标跟踪方法,将transformer与卷积网络巧妙结合,提出了一个局部特征学习模块,对搜索区域和目标的融合结果进行局部

全局特征的学习,充分利用了Transformer长距离建模和卷积网络局部特征增强两者的优势,实现不同特征之间的交互融合,使跟踪器能够自适应地关注有用信息,获得更为鲁棒的跟踪结果和丰富的语义信息,准确定位目标。同时该方法在训练数据量和准确性之间找到了很好的平衡,只使用少量数据进行训练即可达到稳定的跟踪效果,简化了transformer结构训练的复杂程度,并且在GPU下可以实时运行。
附图说明
[0018]图1为本专利技术目标跟踪方法框架图;图2本专利技术局部特征学习模块结构图。
具体实施方式
[0019]下面结合附图对本专利技术作进一步的说明,但不以任何方式对本专利技术加以限制,基于本专利技术教导所作的任何变换或替换,均属于本专利技术的保护范围。
[0020]本专利技术提供了一种基于注意力机制的特征融合目标跟踪方法,克服现有单一网络出现的问题,将transformer与卷积网络巧妙结合,对搜索区域和目标的融合结果进行局部

全局特征的学习,充分利用了Transformer长距离建模和卷积网络局部特征增强两者的优势,实现不同特征之间的交互融合,使跟踪器能够自适应地关注有用信息,获得更为鲁棒的跟踪结果和丰富的语义信息,准确定位目标。同时该方法在训练数据量和准确性之间找到了很好的平衡,只使用少量数据进行训练即可达到稳定的跟踪效果,并且在GPU下可以实时运行。
[0021]一种基于注意力机制的特征融合目标跟踪方法,其方法包括如下步骤:
[0022]S1、特征提取:使用ResNet网络对跟踪目标和搜索区域分别进行特征提取,得到两个支路的特征映射图,并将二维特征图转换成一维特征序列;
[0023]S2、特征增强:使用多头自注意力模块对两个支路的特征进行增强;
[0024]S3、支路特征融合:使用交叉注意力模块对跟踪目标和搜索区域的特征进行交叉融合,以便在搜索区域中准确识别出目标。
[0025]S4、局部全局特征融合:在搜索区域分支使用局部特征学习模块,与交叉注意力模块构成局部全局特征交互融合网络,把学习到的局部和全局依赖关系进行交互融合。
[0026]S5、结果预测:使用预测网络准确定位跟踪目标。
[0027]具体的,如图1所示,一种基于先验信息的多摄像头多目标追踪方法实施例,包括如下步骤:
[0028]S101:使用ResNet

50网络对跟踪目标和搜索区域分别进行特征提取。跟踪目标和搜索区域分别为被裁剪过的图像补丁,它们是特征提取网络ResNet

50的输入,形状分别为:目标图像补丁z∈R3×
Hz
×
Wz
,搜索区域图像补丁x∈R3×
Hx
×
Wx
。其中Hz、Wz和Hx、Wx分别是目标图像和搜索图像的像素高度、宽度。ResNet

50将输入进行8倍下采样得到目标和搜索区域的特征映射图,通道维度从3变化到256。ResNet网络为本领域的现有技术,本专利技术不再赘述。为了将特征映射输入到注意力模块,将二维特征图转换成一维特征本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于注意力机制的特征融合目标跟踪方法,其特征在于:其方法包括如下步骤:S1、特征提取:使用ResNet网络对跟踪目标和搜索区域分别进行特征提取,得到两个支路的特征映射图,并将二维特征图转换成一维特征序列;S2、特征增强:使用多头自注意力模块对两个支路的特征进行增强;S3、支路特征融合:使用交叉注意力模块对跟踪目标和搜索区域的特征进行交叉融合,以便在搜索区域中准确识别出目标。S4、局部全局特征融合:在搜索区域分支使用局部特征学习模块,与交叉注意力模块构成局部全局特征交互融合网络,把学习到的局部和全局依赖关系进行交互融合。S5、结果预测:使用预测网络准确定位跟踪目标。2.根据权利要求1所述的一种基...

【专利技术属性】
技术研发人员:倪笑宇马宏耿明超王占英刘春东梁建明王洁赵成刚冯旭
申请(专利权)人:河北建筑工程学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1