一种孪生网络单目标跟踪方法及装置制造方法及图纸

技术编号:39181874 阅读:15 留言:0更新日期:2023-10-27 08:29
本发明专利技术公开了一种孪生网络单目标跟踪方法,通过基于注意力机制和分支对齐的孪生网络,包括特征提取模块,特征匹配模块,分类和回归模块;对模板分支的输入和搜索分支的输入分别进行特征提取,并处理为分别用于全局特征相似度匹配和局部特征相似度匹配的模板特征和搜索区域特征;输送到深度互相关层和位置注意力网络中,得到全局和局部特征的相似度响应图;并进行加权融合,输送到分类和回归子网络中;完成前背景分类和边界框的预测任务。本发明专利技术提出的模型运算速度快,最终跟踪目标准确、目标框定完整。目标框定完整。目标框定完整。

【技术实现步骤摘要】
一种孪生网络单目标跟踪方法及装置


[0001]本专利技术涉及计算机视觉
,尤其涉及一种孪生网络单目标跟踪方法及装置。

技术介绍

[0002]单目标跟踪是计算机视觉领域最重要的任务之一,其主要任务是在视频序列中评估单个被跟踪对象在每个场景中的定位模型,其在诸多前沿
和日常生活中扮演着不可或缺的角色,并且具有良好的发展前景,同时单目标跟踪在无人驾驶、智能视频监控、机器人和人机交互,无人机目标跟踪等技术方向都存在广阔的应用前景,推动目标跟踪技术的发展对于促进人工智能在社会生活中的应用具有重要的意义。
[0003]至今,基于孪生网络的单目标跟踪仍然存在一些问题有待解决。例如:如何有效抑制背景并突出目标特征、如何有效匹配相似特征、如何联合优化分类和回归分支。

技术实现思路

[0004]为了解决上述问题,本专利技术提出了一种孪生网络单目标跟踪方法,包括以下步骤:
[0005]S1、构建基于注意力机制和分支对齐的孪生网络,所述网络包括特征提取模块,特征匹配模块,分类和回归模块;所述特征匹配模块包括深度互相关层和位置注意力网络;所述分类和回归模块包括分类和回归子网络、分类分支、定位分支、回归分支;
[0006]所述特征提取模块由两个分支组成:模板分支和搜索分支;所述模板分支以给定视频第一帧中的目标区域作为输入t,所述搜索分支以给定视频当前帧中前一帧预测的目标所在位置区域作为输入x;采用孪生ResNet

50主干网络对模板分支的输入和搜索分支的输入分别进行特征提取,得到模板特征图和搜索区域特征图;
[0007]S2、将模板特征图处理为用于全局特征相似度匹配和局部特征相似度匹配的模板特征图,将搜索区域特征图处理为用于全局特征相似度匹配和局部特征相似度匹配的搜索区域特征图;
[0008]S3、将用于全局特征相似度匹配的模板特征图和用于全局特征相似度匹配的搜索区域特征图,输送到所述深度互相关层,得到全局特征的相似度响应图;
[0009]将用于局部特征相似度匹配的模板特征图和用于局部特征相似度匹配的搜索区域特征图,输送到所述位置注意力网络中,得到局部特征的相似度响应图;
[0010]S4、将得到的全局特征和局部特征的相似度响应图进行加权融合,得到融合后的相似度信息的响应图;
[0011]S5、将融合后的相似度响应图进行解码,并输送到分类和回归子网络中进行前背景的分类、边界框的预测和定位精度的预测,得到分类得分图、回归信息响应图和定位得分图;
[0012]S6、根据分类得分图、回归信息响应图和定位得分图,得到跟踪分数,根据跟踪分数最大位置选取预测的边界框,得到目标的跟踪结果。
[0013]本专利技术还提出一种孪生网络单目标跟踪装置,包括:
[0014]处理器;
[0015]存储器,其上存储有可在所述处理器上运行的计算机程序;
[0016]其中,所述计算机程序被所述处理器执行时实现一种孪生网络单目标跟踪方法。
[0017]本专利技术提供的技术方案带来的有益效果是:
[0018]本专利技术采用一种边界框指导的目标模板特征图选取策略,细化模板特征图,并采用一种基于交叉注意力机制的位置注意力网络,针对模板与搜索图像间的局部区域实现相似度匹配,最后结合全局特征的相似度响应图,得到包含丰富相似度信息的融合响应图,并作为分类和回归子网络的输入,完成前背景分类和边界框的预测任务。利用分类和回归分支的损失作为一个额外的监督信号来动态加权彼此的预测损失,以此建立两分支间在训练阶段的联系,从而实现分类和回归分支的联合优化,保证预测精度的协同性。此外,为了更好地优化整个神经网络,使其收敛到最低点,本专利技术提出多层次损失函数融合方法。本专利技术提出的模型运算速度快,最终跟踪目标准确、目标框定完整。
附图说明
[0019]图1为本专利技术实施例提供的一种孪生网络单目标跟踪方法的执行流程图;
[0020]图2为本专利技术实施例提供的一种孪生网络单目标跟踪方法的改进孪生ResNet

50主干网络图;
[0021]图3为本专利技术实施例提供的一种孪生网络单目标跟踪模型结构示意图;
[0022]图4为本专利技术实施例提供的边界框指导的模板特征图选取示意图;
[0023]图5为本专利技术实施例提供的位置注意力网络结构示意图;
[0024]图6为本专利技术实施例提供的样本标签划分示意图;
[0025]图7为本专利技术实施例提供的分类和回归子网络结构示意图;
[0026]图8为本专利技术实施例提供的真实场景单目标跟踪结果图。
具体实施方式
[0027]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地描述。
[0028]参见图1和图3,本专利技术实施例提供了一种孪生网络单目标跟踪方法,包括如下步骤:
[0029]S1、构建基于注意力机制和分支对齐的孪生网络,具体地,参照图2,网络包括特征提取模块,特征匹配模块,分类和回归模块;特征匹配模块包括深度互相关层和位置注意力网络;分类和回归模块包括分类和回归子网络、分类分支、定位分支、回归分支。
[0030]进一步的实施例中,特征提取模块由两个分支组成:模板分支和搜索分支;模板分支以给定视频第一帧中的目标区域作为输入t,搜索分支以给定视频当前帧中前一帧预测的目标所在位置区域作为输入x。两个分支使用孪生主干网络提取特征,保证特征变换方式的一致性。为了减少计算量,对模板分支的输出特征图进行了裁剪,只保留中心的7
×
7的模板块,裁剪后的特征图仍然保留目标特征信息,通道数保持不变。由于低级特征具有丰富的空间信息,有利于定位目标,而高级特征则具有丰富的语义信息,能够用于对目标的辨别。
因此,本文聚合多层深度特征,采用孪生ResNet

50主干网络对模板分支的输入和搜索分支的输入分别进行特征提取,得到模板特征图和搜索区域特征图,将模板分支的输入和搜索分支的输入分别依次通过ResNet

50网络四个特征提取阶段,得到模板分支四个阶段输出的特征图:F1()、F2(t)、F3(t)、F4(t),和搜索分支四个阶段输出的特征图:F1x)、F2x)、F3x)、F4x),作为模板特征图和搜索区域特征图。
[0031]最后,分别对每阶段输出特征图进行降维的操作,将特征图的通道数减少到256,减小计算量,从而提高跟踪的速度和效率。
[0032]S2、将模板特征图处理为用于全局特征相似度匹配和局部特征相似度匹配的模板特征图,将搜索区域特征图处理为用于全局特征相似度匹配和局部特征相似度匹配的搜索区域特征图。
[0033]将孪生ResNet

50主干网络最后三个特征提取阶段提取的模板分支和搜索分支的特征图分别进行聚合,参考图2,并对聚合后的模板分支的特征图进行特征细化,得到用于全局特征相似度匹配模板特征图和搜索区域特征图:
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种孪生网络单目标跟踪方法,其特征在于,包括以下步骤:S1、构建基于注意力机制和分支对齐的孪生网络,所述网络包括特征提取模块,特征匹配模块,分类和回归模块;所述特征匹配模块包括深度互相关层和位置注意力网络;所述分类和回归模块包括分类和回归子网络、分类分支、定位分支、回归分支;所述特征提取模块由两个分支组成:模板分支和搜索分支;所述模板分支以给定视频第一帧中的目标区域作为输入t,所述搜索分支以给定视频当前帧中前一帧预测的目标所在位置区域作为输入x;采用孪生ResNet

50主干网络对模板分支的输入和搜索分支的输入分别进行特征提取,得到模板特征图和搜索区域特征图;S2、将模板特征图处理为用于全局特征相似度匹配和局部特征相似度匹配的模板特征图,将搜索区域特征图处理为用于全局特征相似度匹配和局部特征相似度匹配的搜索区域特征图;S3、将用于全局特征相似度匹配的模板特征图和用于全局特征相似度匹配的搜索区域特征图,输送到所述深度互相关层,得到全局特征的相似度响应图;将用于局部特征相似度匹配的模板特征图和用于局部特征相似度匹配的搜索区域特征图,输送到所述位置注意力网络中,得到局部特征的相似度响应图;S4、将得到的全局特征和局部特征的相似度响应图进行加权融合,得到融合后的相似度信息的响应图;S5、将融合后的相似度响应图进行解码,并输送到分类和回归子网络中进行前背景的分类、边界框的预测和定位精度的预测,得到分类得分图、回归信息响应图和定位得分图;S6、根据分类得分图、回归信息响应图和定位得分图,得到跟踪分数,根据跟踪分数最大位置选取预测的边界框,得到目标的跟踪结果。2.根据权利要求1所述的一种孪生网络单目标跟踪方法,其特征在于,步骤S1中,采用孪生ResNet

50主干网络对模板分支的输入和搜索分支的输入分别进行特征提取,得到模板特征图和搜索区域特征图具体为:将模板分支的输入和搜索分支的输入分别依次通过孪生ResNet

50主干网络四个特征提取阶段提取特征,分别得到模板分支和搜索分支的四个阶段的特征图,作为模板特征图和搜索区域特征图。3.根据权利要求2所述的一种孪生网络单目标跟踪方法,其特征在于,步骤S2具体为:将孪生ResNet

50主干网络最后三个特征提取阶段提取的模板分支和搜索分支的特征图分别进行聚合,并对聚合后的模板分支的特征图进行特征细化,得到用于全局特征相似度匹配模板特征图和搜索区域特征图:度匹配模板特征图和搜索区域特征图:其中,Cat(
·
)表示特征拼接,F2(t),F3(t),F4(t)为模板分支ResNet

50网络最后三个特征提取阶段输出特征图,F2(x),F3(x),F4(x)为搜索分支ResNet

50网络最后三个特征提取阶段输出特征图,对进行特征细化后得到和分别为用于全局特征相似度匹配模板特征图和搜索区域特征图;将孪生ResNet

50主干网络最后三个特征提取阶段中的某个阶段提取的模板分支和搜
索分支的特征图和进行特征细化后,作为用于局部特征相似度匹配模板特征图和搜索区域特征图和4.根据权利要求3所述的一种孪生网络单目标跟踪方法,其特征在于,所述特征细化具体为:在孪生ResNet

50主干网络相应分支的输入图像中标记边界框B
t
,通过将B
t
投影到该分支待细化特征图上,构成计算机模拟人视觉的显著性区域R
t
,从R
t
中选取像素作为特征,区域R
t
内的特征保持不变,将R
t
区域外的其它特征视为背景特征,并将其赋值为0。5.根据权利要求1所述的一种孪生网络单目标跟踪方法,其特征在于,步骤S3中,将用于全局特征相似度匹配的模板特征图和用于全局特征相似度匹配的搜索区域特征图,输送到所述深度互相关层,得到全局特征的相似度响应图公式为:其中

表示深度互相关运算,是以为卷积核,在上执行逐通道间的全局互相关操作,和分别表示用于全局特征相似度匹配的模板特征图和搜索区域特征图,R1'表示初步得到的全局相似度响应图,对R1'进行降维操作,得到全局相似度响应图R1。6.根据权利要求3所述的一种孪生网络单目标跟踪方法,其特征在于,步骤S3中,将用于局部特征相似度匹配的模板特征图和用于局部特征相似度匹配的搜索区域特征图,输送到所述位置注意力网络中,得到局部特征的相似度响应图具体为:将得到的用于局部特征相似度匹配的模板特征图和搜索区域特征图输入到1
×
1的卷积层中,设置1
×
1的卷积层输入通道数为2输出通道为4,生成四个新的特征图和特征图的大小其中,是通道数为c、图像高度为h
t
、图像宽度为w
t
的特征图,是通道数为c、图像高度为h
x
、图像宽度为w
x
的特征图;将和的维度调整为:的维度调整为:其中N
t
=h
t
×
w
t
,N
x
=h
x
×
w
x
;计算特征图与之间的相似度分数a
ji
:其中a

【专利技术属性】
技术研发人员:魏龙生朱自强杜铭钟赵雷罗大鹏
申请(专利权)人:中国地质大学武汉
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1