基于注意力和关系检测的孪生网络目标跟踪方法及系统技术方案

技术编号:34369188 阅读:19 留言:0更新日期:2022-07-31 10:18
本发明专利技术公开了基于注意力和关系检测的孪生网络目标跟踪方法及系统,获取视频序列,将第一帧作为模板图像,当前帧作为搜索图像;在模板分支和搜索分支中,将模板图像和搜索图像输入到网络中,进行特征提取;采用注意力模块对最后三层提取的特征分别进行特征增强处理,将增强处理得到的模板和搜索注意力特征,对应输入到目标跟踪模块中得到分类和回归结果;将分类和回归结果分别进行加权融合,得到融合后的分类和回归结果;基于融合后的回归结果,输入到关系检测器中以度量回归结果中目标和预测图像的关系,得到回归分支的分数图;将回归分支的分数图与分类分支的分数图进行点乘,将点乘结果经过卷积操作,得到最后的分类得分,并获取的预测框。并获取的预测框。并获取的预测框。

Twin network target tracking method and system based on attention and relationship detection

【技术实现步骤摘要】
基于注意力和关系检测的孪生网络目标跟踪方法及系统


[0001]本专利技术涉及计算机视觉
,特别是涉及基于注意力和关系检测的孪生网络目标跟踪方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提到了与本专利技术相关的
技术介绍
,并不必然构成现有技术。
[0003]随着孪生网络引入到目标跟踪领域,基于孪生网络的跟踪器在单目标跟踪方面不断地取得了优异的成绩。由于兼顾了准确率和速度成为主流的方法之一,但依旧存在着很多问题。
[0004]首先,目标跟踪结果受多种因素的影响,如光照变化、视频模糊、遮挡、目标快速移动、尺度变化、出视野等等。这些都让目标跟踪变得非常困难,容易导致目标不能被准确的识别,造成跟踪失败,并对后续任务会造成极大的困难。然而注意力机制可以在某种程度上应对这些挑战。最常用的注意力机制主要分为两种:通道注意力和空间注意力,这两种机制都通过用不同的聚集策略、转换和增强功能聚集来自所有位置的相同特征来增强原始特征。但大多数基于注意力机制的目标跟踪算法依赖于单一注意力机制,没有很好的将通道注意力和空间注意力完美的结合起来。
[0005]其次,基于孪生网络的目标跟踪器的分类和回归通常是独立优化的,会导致他们之间会存在不匹配的问题。具体来说,分类置信度最高的位置对应的框并不一定是最准确的,甚至可能是错误。

技术实现思路

[0006]为了解决现有技术的不足,本专利技术提供了基于注意力和关系检测的孪生网络目标跟踪方法及系统;
[0007]第一方面,本专利技术提供了基于注意力和关系检测的孪生网络目标跟踪方法;
[0008]基于注意力和关系检测的孪生网络目标跟踪方法,包括:
[0009]获取视频序列,将第一帧作为模板图像,当前帧作为搜索图像;
[0010]在模板分支中,将模板图像输入到ResNet

50骨干网络中,进行特征提取;采用注意力模块对最后三层提取的特征分别进行特征增强处理,得到三个模板注意力特征;
[0011]在搜索分支中,根据前一帧的跟踪结果裁剪出搜索图像,将搜索图像输入到ResNet

50骨干网络中,进行特征提取;采用注意力模块对最后三层提取的特征分别进行特征增强处理,得到三个搜索注意力特征;
[0012]将三个模板注意力特征和三个搜索注意力特征,分别对应输入到目标跟踪模块Siamese RPN中得到三个分类结果和三个回归结果;将三个分类结果和三个回归结果分别进行加权融合,得到融合后的分类结果和融合后的回归结果;
[0013]基于融合后的回归结果,输入到关系检测器中以度量回归结果中目标和预测图像的关系,得到回归分支的分数图;将回归分支的分数图与分类分支的分数图进行点乘,以过
滤掉背景中的干扰;将过滤掉干扰的分数图经过卷积操作,得到最后的分类得分,并获取最大响应位置对应的预测框。
[0014]第二方面,本专利技术提供了基于注意力和关系检测的孪生网络目标跟踪系统;
[0015]基于注意力和关系检测的孪生网络目标跟踪系统,包括:
[0016]获取模块,其被配置为:获取视频序列,将第一帧作为模板图像,当前帧作为搜索图像;
[0017]模板特征提取增强模块,其被配置为:在模板分支中,将模板图像输入到ResNet

50骨干网络中,进行特征提取;采用注意力模块对最后三层提取的特征分别进行特征增强处理,得到三个模板注意力特征;
[0018]搜索特征提取增强模块,其被配置为:在搜索分支中,根据前一帧的跟踪结果裁剪出搜索图像,将搜索图像输入到ResNet

50骨干网络中,进行特征提取;采用注意力模块对最后三层提取的特征分别进行特征增强处理,得到三个搜索注意力特征;
[0019]分类回归模块,其被配置为:将三个模板注意力特征和三个搜索注意力特征,分别对应输入到目标跟踪模块Siamese RPN中得到三个分类结果和三个回归结果;将三个分类结果和三个回归结果分别进行加权融合,得到融合后的分类结果和融合后的回归结果;
[0020]预测跟踪模块,其被配置为:基于融合后的回归结果,输入到关系检测器中以度量回归结果中目标和预测图像的关系,得到回归分支的分数图;将回归分支的分数图与分类分支的分数图进行点乘,以过滤掉背景中的干扰;将过滤掉干扰的分数图经过卷积操作,得到最后的分类得分,并获取最大响应位置对应的预测框。
[0021]与现有技术相比,本专利技术的有益效果是:
[0022]本专利技术加入的注意力模块,将空间注意力和通道注意力融合在一起,空间注意力捕捉丰富的语义信息,通道注意力选择性的增强相关依赖的通道特征,在不影响算法效率的基础上,提高了鲁棒性。
[0023]本专利技术加入的关系检测模块,增强了目标对于干扰和复杂背景的辨别能力,同时解决了分类和回归之间不匹配的问题,从而实现更准确和稳定的跟踪目标。
附图说明
[0024]构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。
[0025]图1为实施例一的SiamAR的跟踪模型图;
[0026]图2为实施例一的注意力模块;
[0027]图3(a)~图3(c)为实施例一的关系检测模型;
[0028]图4(a)~图4(i)为实施例一的实验结果;
[0029]图5(a)~图5(l)为实施例一的消融实验对比图。
具体实施方式
[0030]应该指出,以下详细说明都是示例性的,旨在对本专利技术提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本专利技术所属
的普通技术人员通常理解的相同含义。
[0031]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本专利技术的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0032]在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。
[0033]本实施例所有数据的获取都在符合法律法规和用户同意的基础上,对数据的合法应用。
[0034]实施例一
[0035]本实施例提供了基于注意力和关系检测的孪生网络目标跟踪方法;
[0036]如图1所示,基于注意力和关系检测的孪生网络目标跟踪方法,包括:
[0037]S101:获取视频序列,将第一帧作为模板图像,当前帧作为搜索图像;
[0038]S102:在模板分支中,将模板图像输入到ResNet

50骨干网络中,进行特征提取;采用注意力模块对最后三层提取的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于注意力和关系检测的孪生网络目标跟踪方法,其特征是,包括:获取视频序列,将第一帧作为模板图像,当前帧作为搜索图像;在模板分支中,将模板图像输入到ResNet

50骨干网络中,进行特征提取;采用注意力模块对最后三层提取的特征分别进行特征增强处理,得到三个模板注意力特征;在搜索分支中,根据前一帧的跟踪结果裁剪出搜索图像,将搜索图像输入到ResNet

50骨干网络中,进行特征提取;采用注意力模块对最后三层提取的特征分别进行特征增强处理,得到三个搜索注意力特征;将三个模板注意力特征和三个搜索注意力特征,分别对应输入到目标跟踪模块Siamese RPN中得到三个分类结果和三个回归结果;将三个分类结果和三个回归结果分别进行加权融合,得到融合后的分类结果和融合后的回归结果;基于融合后的回归结果,输入到关系检测器中以度量回归结果中目标和预测图像的关系,得到回归分支的分数图;将回归分支的分数图与分类分支的分数图进行点乘,以过滤掉背景中的干扰;将过滤掉干扰的分数图经过卷积操作,得到最后的分类得分,并获取最大响应位置对应的预测框。2.如权利要求1所述的基于注意力和关系检测的孪生网络目标跟踪方法,其特征是,所述采用注意力模块对最后三层提取的特征分别进行特征增强处理,得到三个模板注意力特征;具体是指:对ResNet

50网络中的covn3_x层、covn4_x层、covn5_x层提取的特征f3(z)、f4(z)、f5(z)用注意力模块进行特征增强,生成模板注意力特征f3(z

)、f4(z

)、f5(z

)。3.如权利要求1所述的基于注意力和关系检测的孪生网络目标跟踪方法,其特征是,所述采用注意力模块对最后三层提取的特征分别进行特征增强处理,得到三个搜索注意力特征;具体包括:对ResNet

50网络中的covn3_x层、covn4_x层、covn5_x层提取的特征f3(x)、f4(x)、f5(x)用注意力模块进行特征增强,生成搜索注意力特征f3(x

)、f4(x

)、f5(x

)。4.如权利要求1所述的基于注意力和关系检测的孪生网络目标跟踪方法,其特征是,所述注意力模块,工作原理:将从ResNet

50骨干网络中提取的的特征图分成多个组,采用通道分离,分成两个分支并行处理各组的子特征;对于通道注意力分支,使用全局平局池化生成通道统计量,用一对参数来缩放和移动通道向量;对于空间注意力分支,使用group norm生成空间统计量,用类似于通道注意力分支生成相关特征;然后将两个分支结合起来;随后将所有子特征聚集;使用通道混合实现不同子特征之间的通信;最后输出注意力特征。5.如权利要求4所述的基于注意力和关系检测的孪生网络目标跟踪方法,其特征是,对于通道注意力分支,首先,利用全局平局池化来嵌入全局信息,从而生成通道统计量s∈R
C/2G
×1×1,其中统计量可以通过通道维度H
×
W来收缩X
k1
计算:
然后,获得通道注意力的最终输出:X

k1
=σ(F
c
(s))
·
X
k1
=σ(W1s+b1)
·
X
k1
其中,σ(
·
)=sigmoid(
·
),F
c
(x)=W
x
+b,X
k
∈R
C/2G
×1×1,b1∈R
C/2G
×1×1是用来缩放和位移s的参数;对于空间注意力分支,首先,使用Group Norm来获取空间统计信息X
k2
,然后采用F
c
(
·
)来增强的表示,最终空间注意力的输出通过以下方式:X

k2
=σ(W2·
GN+b2)
·
X
k2
;其中,W2,b2∈R
C/2G
×1×1;最后,将两个分支链接起来,使通道数和输入数相同:X

k1
=[X

k1
...

【专利技术属性】
技术研发人员:李爱民刘笑含刘腾李稼川刘德琦
申请(专利权)人:齐鲁工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1