当前位置: 首页 > 专利查询>吉林大学专利>正文

一种基于孪生神经网络的目标跟踪方法技术

技术编号:28220744 阅读:22 留言:0更新日期:2021-04-28 09:43
本发明专利技术实施例公开一种基于孪生神经网络的目标跟踪方法及系统。属于计算机视觉领域,包括:通过获取待跟踪目标图像和待搜索图像;将获取的待跟踪目标图像和待搜索图像分别输入到孪生神经网络模型中,孪生神经网络模型输出待跟踪目标图像在待搜索图像中的位置。本发明专利技术基于孪生神经网络实现目标跟踪,减少了计算复杂度,提高了目标跟踪的实时性。将残差单元引入孪生神经网络中的孪生网络的两个子网中,解决卷积神经网络深度加深所带来的性能退化问题,使得所构建的孪生神经网络模型在层次较多时也有稳定分支可进行网络梯度回传,利用分支并行定位分割网络在提高目标跟踪精度的同时也兼顾了目标跟踪的速度。时也兼顾了目标跟踪的速度。时也兼顾了目标跟踪的速度。

【技术实现步骤摘要】
一种基于孪生神经网络的目标跟踪方法


[0001]本专利技术属于计算机视觉
,具体涉及一种基于孪生神经网络的目标 跟踪方法。

技术介绍

[0002]图像信息是人类感知世界并获取外界信息的一个重要来源,其中,目标跟 踪是图像信息理解中一个十分常见又重要的视觉任务,是计算机视觉的一个重 要分支。目标跟踪是通过在第一帧选定标注目标,实现在后续视频序列中连续 跟踪变化的目标,对后续帧进行目标定位。近年来,由于无人驾驶、机器人及 视频监控等领域的发展及技术需求,目标跟踪技术受到越来越多的研究人员的 重视。
[0003]近年来,国内外学者提出了很多跟踪算法,主要可以分为两大类:一类是 基于生成式模型的目标跟踪算法,另一类是基于判别式模型的目标跟踪算法。 其中,生成式模型着重于对目标本身进行描述和进一步刻画从而建立目标外观 模型的表征,利用建立的目标模型的表征在后续帧图像中定位目标位置,优点 在于在具有挑战性的跟踪问题中有较好表现,但会增加计算复杂度;判别式模 型实质上是将目标跟踪问题转换成目标和背景的二分类问题,通过利用机器学 习技术来区分图像中的前景目标及背景,进而确定目标的位置,该类方法在判 断目标及背景前需要进行特征的提取来提高判断的准确度,但是会由于大量候 选样本需要进行特征提取使得算法无法实现实时性。
[0004]通过近几年计算机视觉方面的顶会中表现较好的目标跟踪算法可以看出, 其中主要是通过相关滤波方法及深度学习方法实现目标跟踪。2014年, Henriques提出了CSK的改进算法KCF,该算法成为相关滤波算法中的经典之 作。作者在KCF中使用循环位移矩阵生成样本,解决了传统算法中正负样本不 均衡的问题,利用循环矩阵在傅里叶空间可对角化的性质大大降低了运算量。 并且利用核函数,将线性空间的脊回归通过核函数映射到非线性空间来求解非 线性问题。近几年,随着深度学习技术的发展,科研人员开始尝试将深度学习 方法应用于数字图像处理领域,其中,基于深度学习的目标跟踪算法相比传统 算法取得了更好的效果。2016年,牛津大学的Bertinetto等人提出了一种基 于全卷机孪生神经网络的目标跟踪算法框架SiamFC。SiamFC是孪生神经网络的 代表性算法之一。SiamFC训练了一个较大的搜索区域搜索模板图片孪生网络, 通过计算两个输入的交叉相关再进行插值最终得到对目标位置的估计。SiamFC 算法利用两个相同或相似的网络结构分别提取目标图像及搜索图像特征,有效 的减少了神经网络的参数训练量,进而减少计算量。但仍存在针对遮挡等干扰 会产生性能下降的情况,同时随着需求的增加,对于目标跟踪的精度及速度也 有了更高的要求。
[0005]大多数现代的目标跟踪方法使用的都是矩形边界框来初始化目标并估计其 在后续帧中的位置。使用矩形边界框进行目标位置的框定十分方便,但简单的 矩形边界框通常不能准确的表示目标对象,故此,促使我们提出能够产生二进 制分割掩码的跟踪方法。与目标跟踪类似,视频目标分割任务需在后续帧中估 计在视频第一帧中指定的任意目标的
位置,这种情况下的目标表示是由二进制 分割掩码组成,该掩码用于表示某像素是否属于目标。这种像素级的目标估计, 其准确度会有所提高,对于目标位置的确定会更加准确,但像素级的数据无论 是在网络训练过程还是实际视频目标跟踪过程中都比矩形边界框估计需要更多 的计算资源,其目标跟踪速度会较慢。
[0006]综上所述,如何克服目标在视频中的遮挡、快速移动以及尺寸变化等因素 影响,从而较好的实现目标跟踪,目前仍是科研人员急需解决的问题。

技术实现思路

[0007]为了解决现有技术存在目标在视频中的遮挡、快速移动以及尺寸变化等因 素影响,影响目标跟踪问题,本专利技术实施例提供以下技术方案:
[0008]一方面,一种基于孪生神经网络的目标跟踪方法,包括:
[0009]获取待跟踪目标图像和待搜索图像;
[0010]将获取的待跟踪目标图像和待搜索图像分别输入到孪生神经网络模型中, 孪生神经网络模型输出待跟踪目标图像在待搜索图像中的位置。
[0011]进一步地,孪生神经网络模型包括孪生网络和分支并行定位分割网络,
[0012]所述孪生网络使用两个卷积神经网络分别对待跟踪目标图像和待搜索图像 进行特征提取,将提取到的目标图像和搜索图像的特征进行深度可分离卷积, 获得初始响应图;
[0013]所述分支并行定位分割网络根据所述初始响应图,输出所述待跟踪目标图 像在待搜索图像中的位置。
[0014]进一步地,所述分支并行定位分割网络包括:
[0015]分类器子网,所述分类器子网包括两个卷积层,每个卷积层由1个卷积单 元构成;
[0016]定位回归子网,所述定位回归子网包括两个卷积层,每个卷积层由1个卷 积单元构成;
[0017]分割掩码子网,所述分割掩码子网有两个卷积层,每个卷积层由1个卷积 单元构成。
[0018]进一步地,所述分类器子网根据所述初始响应图,得到得分矩阵结果,用 于区分待跟踪目标图像和背景;
[0019]所述定位回归子网根据所述初始响应图,得到位置信息矩阵,用于估计待 跟踪目标图像的矩形边界框的具体位置和长宽;
[0020]所述分割掩码子网根据所述初始响应图,二进制分割掩码用于获取估计的 目标掩码。
[0021]进一步地,所述两个卷积神经网络构成的子网为目标图像子网和搜索图像 子网;
[0022]所述目标图像子网和所述搜索图像子网均是由五层卷积层构成,五层卷积 层分别是:第一层卷积层由1个卷积单元构成,该卷积单元卷积核大小为7
×
7, 第二层卷积层由3个残差单元构成,每个残差单元分别由大小为1
×
1的卷积核和 3
×
3的卷积核交叠组成,第三个卷积层由1个残差单元构成,每个残差单元分 别由大小为1
×
1的卷积核和3
×
3的卷积核交叠组成,第四层卷积层3个残差单元 构成,每个残差单元分别由大小为1
×
1的卷积核和3
×
3的卷积核交叠组成,第五 层卷积层由1个卷积单元构成,该卷积单元卷积核大小
为1
×
1。
[0023]进一步地,所述孪生神经网络模型的训练方法,包括:
[0024]获取目标视频序列数据集;
[0025]对目标视频序列数据集中的图像帧进行图像预处理,得到目标图像训练集 和搜索图像训练集;
[0026]基于目标图像训练集和搜索图像训练集,训练孪生神经网络模型;
[0027]利用损失函数作为目标函数计算输出结果与标签真实值之间的误差,对孪 生神经网络模型中的参数进行调整;
[0028]直至目标函数误差值收敛于最小值或达到迭代次数,得到训练好的孪生神 经网络模型。
[0029]进一步地,所述基于目标图像训练集和搜索图像训练集,训练孪生神经网 络模型,包括:
[003本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于孪生神经网络的目标跟踪方法,其特征在于,包括:获取待跟踪目标图像和待搜索图像;将获取的待跟踪目标图像和待搜索图像分别输入到孪生神经网络模型中,孪生神经网络模型输出待跟踪目标图像在待搜索图像中的位置。2.根据权利要求1所述的方法,其特征在于,孪生神经网络模型包括孪生网络和分支并行定位分割网络,所述孪生网络使用两个卷积神经网络分别对待跟踪目标图像和待搜索图像进行特征提取,将提取到的目标图像和搜索图像的特征进行深度可分离卷积,获得初始响应图;所述分支并行定位分割网络根据所述初始响应图,输出所述待跟踪目标图像在待搜索图像中的位置。3.根据权利要求2所述的方法,其特征在于,所述分支并行定位分割网络包括:分类器子网,所述分类器子网包括两个卷积层,每个卷积层由1个卷积单元构成;定位回归子网,所述定位回归子网包括两个卷积层,每个卷积层由1个卷积单元构成;分割掩码子网,所述分割掩码子网有两个卷积层,每个卷积层由1个卷积单元构成。4.根据权利要求3所述的方法,其特征在于,所述分类器子网根据所述初始响应图,得到得分矩阵结果,用于区分待跟踪目标图像和背景;所述定位回归子网根据所述初始响应图,得到位置信息矩阵,用于估计待跟踪目标图像的矩形边界框的具体位置和长宽;所述分割掩码子网根据所述初始响应图,得到二进制分割掩码,用于获取估计的目标掩码。5.根据权利要求2所述方法,其特征在于,所述两个卷积神经网络构成的子网为目标图像子网和搜索图像子网;所述目标图像子网和所述搜索图像子网均是由五层卷积层构成,五层卷积层分别是:第一层卷积层由1个卷积单元构成,该卷积单元卷积核大小为7
×
7,第二层卷积层由3个残差单元构成,每个残差单元分别由大小为1
×
1的卷积核和3
×
3的卷积核交叠组成,第三个卷积层由1个残差单元构成,每个残差单元分别由大小为1
×
1的卷积核和3
×
3的卷积核交叠组成,第四层卷积层3个残差单元构成,每个残差单元分别由大小为1
×
1的卷积核和3
×
3的卷积核交叠组成,第五层卷积层由1个卷积单元构成,该卷积单元卷积核大小为1
×
1。6.根据权利要求2所述的方法,其特征在于,所述孪生神经网络模型的训练方法,包括:获取目标视频序列数据集;对目标视频序列数据集中的图像帧进行图像预处理,得到目标图像训练集和搜索图像训练集;基于目标图像训练集和搜索图像训练集,训练孪生神经网络模型;利用损失函数作为目标函数计算输出结果与标签真实值之间的误差,对孪生神经网络模型中的参数进行调整;直至目标函数误差值收敛于最小值或达到迭代次数,得到训练好的孪生神经网络模型。7.根据权利要求5所述的方法,其特征在于,所述基于目标图像训练集和搜索图像训练
集,训练孪生神经网络模型,包括:从目标视频序列数据集中随机抽取一帧作为目标图像子网的输入;将目标视频序列数据集中随机抽取一帧的下一帧作为搜索图像子网的输入。8.根据权利要求2所述的方法,其特征在于,所述将提...

【专利技术属性】
技术研发人员:王勇刘红旗李新潮谢文洁金琳淇
申请(专利权)人:吉林大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1