【技术实现步骤摘要】
一种网络轻量化视觉目标跟踪方法
[0001]本专利技术涉及神经网络模型的压缩
,特别是一种网络轻量化视觉目标跟踪方法。
技术介绍
[0002]视觉目标跟踪(Visual Object Tracking,VOT)的目标是在给定目标的初始信息条件下,确定随后视频帧中的目标位置,该任务是计算机视觉(Computer Vision,CV)领域的一个经典任务。在视频监控、自动驾驶等领域具有重要的应用价值。
[0003]Transformer是一个利用注意力机制来提高模型训练速度的模型。Transformer编码器由自注意层、位置前馈网络、层归一化模块和剩余连接器组成。Query是查询成分,key是被比对的成分,两者的点积反应相似度。
[0004]自我注意层的公式如下所示。
[0005][0006]其中Q、K、V为对输入学习的线性变换,分别命名为query、key、value,h用于归一化。利用传递函数softmax对query与key的点积进行变换,然后得到关注权重。前馈层由一个应用于每个时间戳的MLP组 ...
【技术保护点】
【技术特征摘要】
1.一种网络轻量化视觉目标跟踪方法,其特征在于,包括以下步骤:S1、获取目标模板的块特征和搜索区域的块特征;S2、级联所述目标模板的块特征和搜索区域的块特征,得到级联特征X
t
;对所述级联特征X
t
进行多头注意力特征映射,得到经注意力层加权映射增强后的特征x
t
;t=2,3,
……
,T;T为视频帧数;S3、设定基于Transformer的神经网络的若干层为剪枝层;对于第m个剪枝层,若特征x
t
的第i个块特征的软掩码值s
(m)
(t
i
)大于阈值θ
(m)
,则该特征在基于Transformer的神经网络中继续前向传播;S4、重复步骤S3,直至得到最终的剪枝后特征;对最终的剪枝后特征进行回归定位,得到当前帧,即第t帧视频的目标位置预测值;S5、判断第t帧是否为最后一帧,若否,则结束;若是,则提取当前帧预测的目标位置模板特征,以及下一帧的搜索区域特征,返回步骤S2,直至处理完所有帧视频。2.根据权利要求1所述的网络轻量化视觉目标跟踪方法,其特征在于,步骤S1中,所述目标模板和搜索区域的确定过程包括:设某一时刻视频第t帧的图像I
t
大小为N
×
N,则以上一时刻确定的目标位置为中心,于视频第t
‑
1帧的图像I
t
‑1提取长和宽均为第一设定像素的图像块作为目标模板,于I
t
提取长和宽均为第二设定像素的图像块作为搜索区域。3.根据权利要求1所述的网络轻量化视觉目标跟踪方法,其特征在于,步骤S2中,经注意力层加权映射增强后的特征x
t
的表达式为:其中,ReLU()为非线性激活函数,LN()为线性连接操作,sotmax为将权重归一化到0和1之间的函数,d表示块特征维度,x
n
表示级联特征X
t
经第n个注意力头映射后的特征,W
k
、W
q
和W
v
分别表示索引、队列和传递值相对应特征的映射参数,N为目标模板和搜索区域对应的原始图像的维度。4.根据权利要求1所述的网络轻量化视觉目标跟踪方法,其特征在于,步骤S3中,第m个剪枝层中,特征x
t
的第i个块特征的软掩码值s
(m)
...
【专利技术属性】
技术研发人员:马超,盛卫东,徐清宇,陈军,黄源,侯毅,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。