一种基于多层感知机的特征融合目标感知跟踪方法技术

技术编号:35273450 阅读:33 留言:0更新日期:2022-10-19 10:49
本发明专利技术公开了一种基于多层感知机的特征融合目标感知跟踪方法,在图片中裁出一块区域作为模版图片,并且输入ResNet网络提取其特征,在后续的跟踪过程中,首先会根据上一帧的目标位置信息在当前帧裁出模版图片多倍的搜索区域图片,输入相同的ResNet网络提取其特征,并与模版特征做像素级相关计算,获得具有两者的相似性信息的相关特征;然后将相关特征依次通过非局部注意力模块、全局信息编码模块和角点预测模块,获得精准的边界框回归结果。获得精准的边界框回归结果。获得精准的边界框回归结果。

【技术实现步骤摘要】
一种基于多层感知机的特征融合目标感知跟踪方法


[0001]本申请属于图像处理
,尤其涉及一种基于多层感知机的特征融合目标感知跟踪方法。

技术介绍

[0002]目标跟踪是计算机视觉领域的重要研究方向之一,在机器人、人机交互、军事侦查、智能交通、虚拟现实等军事、民用领域都有广泛的应用。近年来,许多学者在目标跟踪方面开展了大量工作,并取得了一定的进展。但是,在复杂环境中仍存在目标外观变形(目标纹理、形状、姿态变化等)、光照变化、快速运动和运动模糊、背景相似干扰、平面内外旋转、尺度变化、遮挡和出视野等难题,使得复杂环境下稳定实时的目标跟踪仍然是一个具有挑战性的问题。
[0003]基于孪生网络的跟踪器通过学习模板特征和搜索特征生成的相似性相关特征来预测目标在当前帧的位置信息,成功的将目标跟踪问题转换为相似性度量问题。SiamFC通过学习从基础相关(

correlation)获得的单通道相似响应图来预测目标的边界框,从而取得了开创性的工作。然而,单通道响应图难以包含多尺度空间信息,对精确跟踪具有一定的局限性。为了克服跟踪过程中由于物体或相机运动引起的尺度变化,SiamRPN采用更好的相关方法获取更多的空间信息,并引入区域建议网络(RPN),利用精心设计的锚盒(anchor)对不同尺度的目标进行预测。SiamRPN++通过使用深度相关方法将相关特征的通道数增加到了256,同时使用了不同深度的ResNet的特征进行目标跟踪,极大的提升了跟踪精度。近年来,学者们发现基于孪生网路的跟踪器中的相关运算本身是局部线性匹配过程,容易丢失语义信息,并且陷入局部最优。因此,设计了更健壮、更准确的编码器

解码器结构的跟踪器,提出一个全新的特征融合模块。然而,尽管编码器

解码器结构可以来解决跟踪过程中语义信息丢失的挑战,但其需要大量数据集训练,并且难以拟合。

技术实现思路

[0004]本申请的目的是提供一种基于多层感知机的特征融合目标感知跟踪方法,在现有技术方案中引入多层感知机进行全局感受野编码,以克服上述
技术介绍
中所提出的技术问题。
[0005]为了实现上述目的,本申请技术方案如下:
[0006]一种基于多层感知机的特征融合目标感知跟踪方法,通过构建的深度学习模型进行目标跟踪,所述深度学习模型包括特征提取模块、特征相关模块、非局部注意力模块、全局信息编码器和角点预测模块,所述基于多层感知机的特征融合目标感知跟踪方法,包括:
[0007]获取待跟踪视频序列的跟踪模板,将跟踪模板输入到特征提取模块,提取模板特征;
[0008]从待跟踪视频序列中获取当前搜索图片,将搜索图片输入到特征提取模块,提取搜索特征;
[0009]将模板特征和搜索特征输入特征相关模块,计算模板特征每个子核与搜索特征的相关性,得到相关特征图;
[0010]将相关图输入到非局部注意力模块,得到相关注意力图;
[0011]将相关注意力图输入到全局信息编码器进行特征增强,得到全局信息编码特征,所述全局信息编码器包括允许不同通道之间交流的通道编码器和允许不同空间位置交流的空间编码器,每个编码器由两层全连接层和一个激活函数GELU构成;
[0012]将全局信息编码特征输入角点预测模块,获得跟踪目标的包围框信息。
[0013]进一步的,所述获取待跟踪视频序列的跟踪模板,包括:
[0014]将人为标注的跟踪目标包围框信息放大预设第一倍数,从待根据视频序列第一帧图片中裁剪出跟踪模板。
[0015]进一步的,所述从待跟踪视频序列中获取当前搜索图片,包括:
[0016]将上一帧的跟踪结果信息放大预设第二倍数,从当前待处理的帧中裁剪出搜索图片。
[0017]进一步的,所述计算模板特征每个子核与搜索特征的相关性,得到相关特征图,包括:
[0018]将模板特征分解成h
×
w个子核计算每个子核与搜索特征的基础相关,从而得到相关特征图
[0019]进一步的,所述将相关注意力图输入到全局信息编码器进行特征增强,得到全局信息编码特征,包括:
[0020]将相关注意力图矩阵变形成输入到全局信息编码器;
[0021]采用如下公式表示全局信息编码器的操作:
[0022]R1=R
GT
+W2σ(W1LN(R
GT
))
[0023]R
T
=R
1T
+W4σ(W3LN(R
1T
))
[0024]其中,R
T
表示全局编码器输出的全局信息编码特征,LN表示归一化,W1‑
W4表示全连接层操作,σ表示激活函数GELU,T表示转置。
[0025]进一步的,所述深度学习模型的联合损失函数表示为:
[0026][0027]其中,L
iou
表示交并比损失,L1表示平均绝对误差损失,λ
iou
、表示对应损失函数的权重,b
i
和表示真值和预测的包围框。
[0028]本申请提出了一种基于多层感知机的特征融合目标感知跟踪方法,引入多层感知机进行全局感受野编码,使得跟踪器具有全局信息的搜索感知能力,使用Resnet

50进行特征提取以及像素级的特征相关模块,从而获得更精细的特征表达,再通过本文提出的全局信息编码器模块增大模型的感受野,克服了跟踪过程中感受野小引发的遮挡、超出视野等跟踪问题。
附图说明
[0029]图1为本申请基于多层感知机的特征融合目标感知跟踪方法流程图;
[0030]图2为本申请深度学习模型网络示意图。
具体实施方式
[0031]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅用以解释本申请,并不用于限定本申请。
[0032]在一个实施例中,如图1所示,提出了一种基于多层感知机的特征融合目标感知跟踪方法,包括:
[0033]步骤S1、获取待跟踪视频序列的跟踪模板,将跟踪模板输入到特征提取模块,提取模板特征。
[0034]对于需要进行目标跟踪的视频序列,本实施例首先获取其跟踪模板Z1。具体的,将人为标注的跟踪目标包围框信息B1放大预设第一倍数,从待根据视频序列第一帧图片I1中裁剪出跟踪模板Z1。
[0035]例如将包围框信息B1放大2倍,然后第一帧图片I1中裁剪出跟踪模版Z1,包围框信息B1包括跟踪目标包围框的左上角坐标和右下角坐标。
[0036]本实施例特征提取模块,采用预训练好的深度残差网络ResNet

50(图2中用CNN表示),在输入跟踪模板后,提取得到模板特征示),在输入跟踪模板后,提取得到模板特征
[0037]步骤S2、从待跟踪视频序列中获取当前搜索图片,将搜索图片输入到特征提取模块,提取搜索特征本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多层感知机的特征融合目标感知跟踪方法,通过构建的深度学习模型进行目标跟踪,其特征在于,所述深度学习模型包括特征提取模块、特征相关模块、非局部注意力模块、全局信息编码器和角点预测模块,所述基于多层感知机的特征融合目标感知跟踪方法,包括:获取待跟踪视频序列的跟踪模板,将跟踪模板输入到特征提取模块,提取模板特征;从待跟踪视频序列中获取当前搜索图片,将搜索图片输入到特征提取模块,提取搜索特征;将模板特征和搜索特征输入特征相关模块,计算模板特征每个子核与搜索特征的相关性,得到相关特征图;将相关图输入到非局部注意力模块,得到相关注意力图;将相关注意力图输入到全局信息编码器进行特征增强,得到全局信息编码特征,所述全局信息编码器包括允许不同通道之间交流的通道编码器和允许不同空间位置交流的空间编码器,每个编码器由两层全连接层和一个激活函数GELU构成;将全局信息编码特征输入角点预测模块,获得跟踪目标的包围框信息。2.根据权利要求1所述的基于多层感知机的特征融合目标感知跟踪方法,其特征在于,所述获取待跟踪视频序列的跟踪模板,包括:将人为标注的跟踪目标包围框信息放大预设第一倍数,从待根据视频序列第一帧图片中裁剪出跟踪模板。3.根据权利要求1所述的基于多层感知机的特征融合目标感知跟踪方法,其特征在于,所述从待跟踪视频序列中获取当前搜索图片,包括:将上一帧的跟踪结果信息放大预设第二倍数,从当前待处理的帧中裁剪出搜索图片。4....

【专利技术属性】
技术研发人员:产思贤王煜陶键白琮
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1