【技术实现步骤摘要】
一种基于孪生网络和在线模板更新的单目标跟踪方法
[0001]本专利技术涉及一种基于孪生网络和在线模板更新的单目标跟踪方法,属于单目标跟踪领域。
技术介绍
[0002]目标跟踪是在给定目标对象的初始位置的情况下,预测目标对象在视频后续每一帧中的位置,广泛的应用于自动驾驶、智能监控、无人机领域等。对于现实世界的应用来说,跟踪过程通常会受到极大的光照变化、外观变化、各种类型的遮挡、以及运动模糊等环境因素的影响。这也使得单目标跟踪不仅成为计算机视觉领域里面一个非常活跃的研究方向,也是计算机视觉感知领域研究的难点之一。
[0003]现阶段的单目标跟踪算法主要分成三类,它们分别是:生成式算法、相关滤波算法、以及深度学习算法。生成式算法采用特征模型描述目标的外观特征,最小化跟踪目标和候选目标之间的重构误差来确认目标。缺点是过于关注目标本身的特征,忽略背景信息,当目标外观剧烈变化或遮挡时容易出现目标漂移或丢失。相关滤波算法是在频域上进行的,利用训练矩阵可以在频域对角化的性质来确认目标。缺点在于边界效应问题,导致判别器不稳定。深度学习 ...
【技术保护点】
【技术特征摘要】
1.一种基于孪生网络和在线模板更新的单目标跟踪方法,其特征在于:方法步骤如下:步骤一、数据预处理:将训练用到的数据集中所有文件夹中视频序列的每一张图片裁剪成固定大小,对裁剪后的数据集生成对应的json文件;所述文件夹中的图片包含模板图片Z以及搜索图片X;步骤二、构建网络模型并进行模型训练:首先冻结模板更新模块的参数,仅训练构造好的网络模型以及特征增强模块;接着解冻模板更新模块,单独训练该模块;在整个训练过程中通过降低网络的损失函数进而优化模型,从而得到表现最好的网络模型权重;步骤三、模型测试,在新的数据集中,通过加载步骤二中表现最好的网络模型权重来测试跟踪目标对象的效果。2.根据权利要求1所述的一种基于孪生网络和在线模板更新的单目标跟踪方法,其特征在于:所述步骤一中图片裁剪后的尺寸为:模板图片尺寸为127*127像素,搜索区域图片尺寸为511*511像素。3.根据权利要求1所述的一种基于孪生网络和在线模板更新的单目标跟踪方法,其特征在于:所述步骤二的具体操作为:步骤2.1、构建网络模型,所述网络模型包括5部分:用于特征提取的孪生网络、用于进行在线模板更新的模板更新模块、用于增强显著性信息的特征增强模块、用于嵌入模板图片Z和搜索区域图片X信息的特征融合结构、用于目标分类以及回归的分类回归子网络;步骤2.2、将模板图片Z和搜索图片X送入孪生网络,所述孪生网络包括由5层网络组成的模板分支和搜索分支,分别对模板图片Z和搜索区域图片X进行特征提取;为了获取更多的语义以及细节信息,将模板分支后三层网络提取到的特征Z
i
,i=3,4,5和搜索分支后三层网络提取到的特征X
i
,i=3,4,5沿着通道维度进行拼接,得到骨干网络两分支的输出,分别用φ(Z)和φ(X)来表示:φ(Z)=Cat(Z3,Z4,Z5)φ(X)=Cat(X3,X4,X5);步骤2.3、将步骤2.2得到的模板图片特征φ(Z)送入模板更新模块得到更新后的特征所述模板更新模块由两层全连接网络组成:其中表示学习函数,通过学习和训练获得,表示每个视频序列第一帧的初始模板;表示先前累计的模板;Z
i
表示用第i帧预测结果得到的模板;
i
表示适合第i+1帧预测的模板;步骤2.4、将步骤2.2得到的搜索图片特征φ(X)和步骤2.3得到的分别送入特征增强模块;所述特征增强模块集成了三种注意力模块,分别是通道注意力模块,空间注意力模块,自注意力模块;假定通道注意力模块的输入特征为Y∈R
C
×
H
×
W
,在保持其通道维度不变的前提下,首先在Y上应用平均池化层和最大池化层来分别生成Y
A
∈R
C
×1×1,Y
M
∈R
C
×1×1;然后将这两个特征维度重整成Y
A
,Y
M
∈R1×
C
’
,其中C
’
=C
×1×
1;之后将Y
A
和Y
M
通过两层感知机以及经过维度重整操作,得到Y
A
,Y
M
∈R
C
×1×1;然后将两者相加得到通道注意力权重图A
C
∈R
C
×1×1,具体定义如
下:A
C
=MLP(Avg Pooling(Y))+MLP(Max Pooling(Y))最后将注意力权重图与该模块的输入Y进行简单的相乘,得到最终的输出Y
C
∈R
C
×
H
×
W
,具体定义如下:Y
C
=Sigmoid(A
C
)Y空间注意力模块的输入是通道注意力模块中的输出Y
C
∈R
C
×
H
×
W
,在保持特征尺寸大小不变的同时缩减其通道数,首先将Y
C
分别通过平均池化层和最大池化层,得到Y
A
,Y
M
∈R1×
H
×
W
;接着将两者沿着通道维度拼接起来,得到Y
A+M
∈R2×
H
×
W
,之后对特征Y
A+M
应用具有压缩通道作用的7
×
7卷积核大小的卷积层以生成空间注意力权重图A
S
∈R1×
H
×
W
,具体定义如下:A
S
=conv2d(concat(Avg Pooling(Y),Max Pooling(Y)))最后将空间注意力权重图和输入特征Y进行简单地相乘,生成空间注意力特征Y
S
∈R
C
×
H
×
W
,具体定义如下:Y
S
=Sigmoid(A
S
)Y自注意力模块是由两分支组成的,输入特征Y∈R
C
×
H
×
W
,一分支将Y维度重整成Y1∈R1×
C
×
N
,其中N=H
×
W;另一分支对Y应用具有维度重整操作的1
×
1卷积层以生成Y2∈R1×
N
×1,其中N=H
×
W;然后将Y1,Y2两者相乘得到A
K
∈R1×
C
×1;具体定义如下:A
K
=Y1softmax(Y2)最后将变形后的自注意力矩阵A
K
∈R
C<...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。