基于交互与聚合式特征优化的孪生跟踪方法及系统技术方案

技术编号：34622565 阅读：33 留言：0更新日期：2022-08-20 09:30

本发明专利技术涉及一种基于交互与聚合式特征优化的孪生跟踪方法及系统，该方法包括以下步骤：初始化模板图像和搜索区域图像；构建特征提取网络，获得模板多层特征和搜索区域多层特征；构建门控双视角聚合模块优化多层模板特征；构建语义引导的注意力模块实现搜索区域的粗粒度特征优化；构建相关性图聚合模块实现搜索区域的细粒度特征优化；构建头部预测网络，预测出当前帧目标的位置。该方法及系统通过模板特征和搜索区域特征的自注意力聚合及交互来增强目标显著特征，抑制背景噪声，从而在具有挑战性的场景中获得更加稳定、鲁棒、准确的跟踪结果。跟踪结果。跟踪结果。

全部详细技术资料下载

【技术实现步骤摘要】
B.Visual tracking via dynamic memory networks.IEEE Transactions on Pattern Analysis and Machine Intelligence.2021,pp.360
‑
374.)通过添加记忆单元来存储跟踪过程中的可靠目标模板，因此能够完整地保存第一帧模板的有效信息，故有助于跟踪器发生漂移时快速恢复。此外，为了提高孪生跟踪器对相似物和复杂背景的判别能力，DaSiamRPN(Zhu Z,Wang Q,Li B,et al.Distractor
‑
aware siamese networks for visual object tracking.Proceedings of the European Conference on Computer Vision.2018,pp.103
‑
119.)在线设计了一个可进行增量学习的干扰物感知模块。Nocal
‑
Siam(Tan H,Zhang X,Zhang Z,et al.Nocal
‑
siam:Refining visual features and response with advanced non
‑
local blocks for real
‑
time siamese tracking.IEEE Transactions on Image Processing.2021,pp.30:2656
‑
>2668.)利用非局部注意力的远距离依赖性，加强对和目标相关的特征权重的学习。SiamDW(Zhang Z,Peng H.Deeper andwider siamese networks for real
‑
time visual tracking.Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition.2019,pp.4591
‑
4600.)则为孪生跟踪器设计了一个更深、更宽的网络架构，进一步挖掘深度网络的特征提取和判别能力。
[0004]虽然目前孪生跟踪算法在如何设计更深更宽的骨干网络、更好的匹配方法、更精确的输出表示以及更高效的在线更新机制等方面已经取得了一定的进展，但是对相似物干扰、复杂背景、遮挡等场景还缺乏更有效的解决方案。

技术实现思路

[0005]本专利技术的目的在于提供一种基于交互与聚合式特征优化的孪生跟踪方法及系统，该方法及系统有利于在复杂环境中获得更加稳定、鲁棒、准确的跟踪结果。
[0006]为实现上述目的，本专利技术采用的技术方案是：一种基于交互与聚合式特征优化的孪生跟踪方法，包括以下步骤：
[0007]S1、初始化模板图像和搜索区域图像；
[0008]S2、构建特征提取网络，输入模板图像和搜索区域图像，获取相应的模板多层特征F
z
和搜索区域多层特征F
x
；
[0009]S3、构建门控双视角聚合模块GDA以优化模板多层特征，将模板多层特征F
z
输入GDA模块，获得优化的模板多层特征
[0010]S4、构建语义引导的注意力模块SGA以实现搜索区域的粗粒度特征优化，将和搜索区域多层特征F
x
输入SGA模块，获得粗粒度优化的搜索区域特征
[0011]S5、构建相关性图聚合模块CGA以实现搜索区域的细粒度特征优化，将与输入CGA模块，获得细粒度优化的搜索区域特征
[0012]S6、构建头部预测网络，将和输入，预测出当前帧目标的位置。
[0013]进一步地，步骤S1的具体实现方法为：
[0014]根据第一帧给定的目标真实边界框，在第一帧图像上裁剪出尺寸大小为3
×
127
×
127的模板图像；从第二帧开始，以上一帧的目标预测边界框中心坐标为参考点，裁剪出尺
寸大小为3
×
255
×
255的搜索区域图像。
[0015]进一步地，步骤S2的具体实现方法为：
[0016]采用ResNet
‑
50作为特征提取网络，将模板图像和搜索区域图像作为输入，获取模板多层特征和搜索区域多层特征其中l表示提取的模板或搜索区域特征总层数，分别表示第i层的模板特征和搜索区域特征，i∈[1,l]。
[0017]进一步地，步骤S3的具体实现方法为：
[0018]所述GDA模块包括局部视角注意力LA、全局视角注意力GA以及聚合门控三个子模块；所述LA模块用于凸显局部视角的高频信息；对于大小为C
×
H
×
W的单层模板特征局部视角注意力特征表示为：
[0019][0020]其中，W2为可学习的卷积参数，大小为和这里r表示通道压缩参数；表示批量归一化；σ表示sigmoid函数；表示按位相乘；高频特征通过减去局部均值的方式获得，表示为：
[0021][0022][0023]式中，W1为可学习的卷积参数；为经W1卷积映射的特征；AvgPool(
·
)表示平均池化，用于获取局部区域的平均信号强度；ks和s分别表示窗口大小和步长；δ表示非线性激活函数，这里采用ReLU；
[0024]所述LA模块关注固定的感受野，通过卷积操作聚合局部区域的信息；而所述GA模块用于通过多层特征的交互，聚合不同感受野的全局信息；对于一组l层的特征F＝{x1,x2,...,x
l
}，对于任意两层特征和首先，采用三个卷积层θ(
·
)、φ(
·
)和g(
·
)对x
i
进行线性映射，获得“查询”、“键”和“值”的特征图的特征图和即
[0025]Q＝θ(x
i
)
[0026]K1＝φ(x
i
)
[0027]V1＝g(x
i
)
[0028]同时，特征x
j
共享卷积层φ(
·
)和g(
·
)，得到对应特征图和即
[0029]K2＝φ(x
j
)
[0030]V2＝g(x
j
)
[0031]然后，将各层的“键”和“值”分别拼接在一起，获得多层特征的全局表示和其中S＝l
×
H
×
W，这里l表示被查询的总特征层数；于是全局特征K和V表示
为：
[0032]K＝[φ(x
i
)||φ(x
j
)][0033]V＝[g(x
i
)||g(x
j
)][0034]其中，[
·
||
·
]表示特征按空本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于交互与聚合式特征优化的孪生跟踪方法，其特征在于，包括以下步骤：S1、初始化模板图像和搜索区域图像；S2、构建特征提取网络，输入模板图像和搜索区域图像，获取相应的模板多层特征F
z
和搜索区域多层特征F
x
；S3、构建门控双视角聚合模块GDA以优化模板多层特征，将模板多层特征F
z
输入GDA模块，获得优化的模板多层特征S4、构建语义引导的注意力模块SGA以实现搜索区域的粗粒度特征优化，将和搜索区域多层特征F
x
输入SGA模块，获得粗粒度优化的搜索区域特征S5、构建相关性图聚合模块CGA以实现搜索区域的细粒度特征优化，将与输入CGA模块，获得细粒度优化的搜索区域特征S6、构建头部预测网络，将和输入，预测出当前帧目标的位置。2.根据权利要求1所述的基于交互与聚合式特征优化的孪生跟踪方法，其特征在于，步骤S1的具体实现方法为：根据第一帧给定的目标真实边界框，在第一帧图像上裁剪出尺寸大小为3
×
127
×
127的模板图像；从第二帧开始，以上一帧的目标预测边界框中心坐标为参考点，裁剪出尺寸大小为3
×
255
×
255的搜索区域图像。3.根据权利要求1所述的基于交互与聚合式特征优化的孪生跟踪方法，其特征在于，步骤S2的具体实现方法为：采用ResNet
‑
50作为特征提取网络，将模板图像和搜索区域图像作为输入，获取模板多层特征和搜索区域多层特征其中l表示提取的模板或搜索区域特征总层数，分别表示第i层的模板特征和搜索区域特征，i∈[1,l]。4.根据权利要求1所述的基于交互与聚合式特征优化的孪生跟踪方法，其特征在于，步骤S3的具体实现方法为：所述GDA模块包括局部视角注意力LA、全局视角注意力GA以及聚合门控三个子模块；所述LA模块用于凸显局部视角的高频信息；对于大小为C
×
H
×
W的单层模板特征局部视角注意力特征表示为：其中，W2为可学习的卷积参数，大小为和这里r表示通道压缩参数；表示批量归一化；σ表示sigmoid函数；表示按位相乘；高频特征通过减去局部均值的方式获得，表示为：值的方式获得，表示为：
式中，W1为可学习的卷积参数；为经W1卷积映射的特征；AvgPool(
·
)表示平均池化，用于获取局部区域的平均信号强度；ks和s分别表示窗口大小和步长；δ表示非线性激活函数，这里采用ReLU；所述LA模块关注固定的感受野，通过卷积操作聚合局部区域的信息；而所述GA模块用于通过多层特征的交互，聚合不同感受野的全局信息；对于一组l层的特征F＝{x1,x2,...,x
l
}，对于任意两层特征和首先，采用三个卷积层θ(
·
)、φ(
·
)和g(
·
)对x
i
进行线性映射，获得“查询”、“键”和“值”的特征图的特征图和即Q＝θ(x
i
)K1＝φ(x
i
)V1＝g(x
i
)同时，特征x
j
共享卷积层φ(
·
)和g(
·
)，得到对应特征图和即K2＝φ(x
j
)V2＝g(x
j
)然后，将各层的“键”和“值”分别拼接在一起，获得多层特征的全局表示和其中S＝l
×
H
×
W，这里l表示被查询的总特征层数；于是全局特征K和V表示为：K＝[φ(x
i
)||φ(x
j
)]V＝[g(x
i<...

【专利技术属性】
技术研发人员：陈思，许瑞，王大寒，朱顺痣，吴芸，
申请(专利权)人：厦门理工学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人