一种基于目标运动预测的多目标追踪方法技术

技术编号:32822046 阅读:12 留言:0更新日期:2022-03-26 20:20
本发明专利技术公开了一种基于目标运动预测的多目标追踪方法。本方法使用一种类似孪生网络结构的模型,孪生网络的两个分支分别输入前后两帧图像。首先在大量目标检测数据上对骨干网络进行预训练,得到一个能够提取特征的基本模型,然后提取到的目标特征被送入相关性模块进行运动预测,得到目标在相邻帧间的位置偏移量。通过预测目标在相邻帧之间的运动量,从而很好地避免密集人群场景下对目标特征的依赖,同时也能够减少追踪过程中同一条轨迹改变目标ID的次数。本方法同时还提出了一个匹配损失来提升ID编码的辨识度。在相邻帧之间采集正样本对和负样本对,匹配损失使正样本对之间的距离尽可能近,负样本对之间的距离尽可能远。负样本对之间的距离尽可能远。负样本对之间的距离尽可能远。

【技术实现步骤摘要】
一种基于目标运动预测的多目标追踪方法


[0001]本专利技术涉及计算机
,涉及多目标追踪技术,特别涉及一种基于目标运动预测和端到端神经网络的多目标追踪方法。

技术介绍

[0002]多目标追踪技术旨在和人类视觉系统一样,为每一个目标预测、绘制其运动轨迹,并以此作为其行动判断的依据。随着近年来相关研究的飞速发展,多目标追踪已经在刑侦安防、机器人视觉、自动驾驶等许多应用场景发挥重要作用。多目标追踪与目标检测类似,通常需要为每一个目标输出一个矩形框,即用坐标、高度、宽度等来辨别每一个目标;但与目标检测不同的地方在于,多目标追踪还需要为每一个目标赋予一个ID,同一个目标在不同帧之间,需要拥有相同的ID。多目标追踪在某种程度上与行人搜索更为相似,既要关注检测,又需要处理匹配问题。不同之处在于,行人搜索任务行人搜索是基于图像的,没有时间维的上下文信息;多目标追踪是基于视频的,是在连续的帧中搜索目标,目标的位置和外表变化不会太大。换句话说,行人搜索是一个一对多的任务,而多目标追踪是一个多对多的任务。
[0003]多目标追踪的探索过程经历了以下几个阶段:早期的研究以视觉追踪 (visual tracking)为主,传统方法使用各种各样的视觉追踪框架,例如判别式相关滤波器(discriminative correlation filters,DCF),轮廓追踪 (silhouette tracking),核追踪(kernel tracking)等。一般来说,传统的追踪方法会假设目标的结构、运动方式保持不变,寻求合适的手工特征,因此无法解释目标的语义信息,也无法处理外貌的变化等。SORT使用卡尔曼滤波器来预测目标在下一帧的位置,计算其与下一帧中的检测结果的重合度。 IoU

Tracker通过比较相邻帧的检测结果之间的重合度来直接匹配检测结果。 SORT和IoU

Tracker因为其简单易用的特性而被广泛使用,但也因为较为简单,而无法处理较为复杂的场景,例如密集的人群、相机运动等。Bae使用线性判别分析(Linear Discriminant Analysis)来为每个目标提取ID特征,从而得到了更加鲁棒的追踪结果。Xiang使用马尔可夫决策过程参与追踪轨迹预测,也取得了不错的效果。
[0004]随着近年来深度学习的兴起与发展,许多研究者开始使用基于深度学习的方法来进行目标追踪。由于深度神经网络强大的拟合能力,在数据足够的条件下,可以直接得到更具鲁棒性的特征,效率大大提高。早期算法通常将目标追踪任务分成目标检测和ID特征提取这两个步骤,通常首先使用Faster R

CNN 等目标检测算法来定位每一帧中的目标,再在原图中切割检测结果的图片,最后对这些切割得到的图片进行匹配。标准的匹配过程通常包括计算ID特征或者检测结果的代价矩阵,再使用卡尔曼滤波器和匈牙利算法(Hungarian algorithm) 等完成匹配过程。有一些研究工作使用RNN来参与匹配过程,例如使用图匹配,也取得了不错的效果。
[0005]孪生网络模型通过共享网络参数,使用一组参数便能将一个子序列中的所有信息关联起来,使得大部分运算可以并行化,提高了运算效率。
[0006]孪生网络模型具有两个或者多个输入分支,用于处理多个数据,方便提取其特征。当不同的输入分别通过输入分支提取特征之后,便会整合并进行统一处理,从而获取他们之间的相关信息。由于两个分支共享参数,且整个模型统一进行优化,最终学习到的模型能够很好的提取不同输入之间的相关性,这正是多目标追踪所需要的。
[0007]相关性(correlation)是数字信号处理中的术语,用于描述两个或多个信号之间的相对关系。对于单目标追踪方法来说,基于相关性滤波器的方法是主流,因为这类场景只需要考虑一对一的匹配问题。相关滤波器也广泛应用于光流估计

技术实现思路

[0008]本专利技术的目的在于提供一种基于目标运动预测的多目标追踪方法,该方法在密集场景的多目标追踪任务上达到良好效果。本专利技术以孪生网络结构的目标检测模型为基础的预训练模型,引入相关性模块和匹配损失函数,通过直接预测运动运动量实现目标追踪,得到了一个鲁棒的多目标追踪模型。
[0009]为了实现上述目的,设计一种基于目标运动预测的多目标追踪方法,其特征在于,该方法包括如下步骤:
[0010]步骤一:基于大量目标检测数据集预训练出基本的目标检测模型,所述预训练模型为孪生网络结构的端对端神经网络,有两个输入分支,预训练后可得到网络的初始参数;
[0011]步骤二:对多目标追踪数据集进行数据增强操作,获得不同视角、图像畸变、遮挡后的数据;
[0012]步骤三:增强后的数据通过共享参数的无锚点检测器提取特征;
[0013]步骤四:使用相关性模块对目标进行进行运动预测,所述的相关性模块是一种获取目标在相邻帧之间的位置关系,用于对运动信息进行建模的计算模块;
[0014]步骤五:对不同目标的特征计算匹配损失,将其作为模型的优化目标,所述的匹配损失作为整个模型训练时的优化目标,通过提升同一目标特征的相似度、降低不同目标特征的相似度的准则来学习表征;
[0015]步骤六:通过目标在不同帧之间的运动关系直接实现目标追踪。
[0016]本专利技术还具有如下优选的技术方案:
[0017]1.步骤二所述的数据增强操作是指:对于原始图像,进行翻转、裁剪、旋转或仿射变换,详细步骤包括:
[0018]步骤a1:随机对图像进行左右翻转,保持所有目标仍在原图像内;
[0019]步骤a2:随机对图像进行裁剪、旋转、仿射变换,保证图像内至少还剩一个目标;
[0020]步骤a3:随机对图像进行高斯模糊、HSV色彩变换。
[0021]2.步骤三所述的通过无锚点检测器直接对整张图片提取特征,同时预测每个目标的位置和大小,两个分支的检测器共享参数,同时优化,减少了参数数量。
[0022]3.步骤四所述的相关性模块是一种获取目标在相邻帧之间的位置关系,对运动信息进行建模而设计的计算模块,详细步骤包括:对于两张高度为H,宽度为W,通道数为C的特征图f1,f2∈R
HW
×
C
,对于f1中的点每一个像素点p1与f2中的点p2,需要在p1周围半径为d(displacement)的方形区域内寻找相关性最高的点,即p1,p2满足p1=p2+off,其中off∈[

d,d]×
[

d,d],令其输出的相关性图表示为假定Corr
(p1,p2)
表示
p1与p2两处的相关性,令f
i
(pi+o)∈R
C
为I
i
中的点pi的某个半径为k(kernel)的邻域内点pi+o处的特征,则有:
[0023]Corr
(p1,p2)
=∑
o∈[

k,k]×本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于目标运动预测的多目标追踪方法,其特征在于,该方法包括如下步骤:步骤一:基于大量目标检测数据集预训练出基本的目标检测模型,所述预训练模型为孪生网络结构的端对端神经网络,有两个输入分支,预训练后可得到网络的初始参数;步骤二:对多目标追踪数据集进行数据增强操作,获得不同视角、图像畸变、遮挡后的数据;步骤三:增强后的数据通过共享参数的无锚点检测器提取特征;步骤四:使用相关性模块对目标进行进行运动预测,所述的相关性模块是一种获取目标在相邻帧之间的位置关系,用于对运动信息进行建模的计算模块;步骤五:对不同目标的特征计算匹配损失,将其作为模型的优化目标,所述的匹配损失作为整个模型训练时的优化目标,通过提升同一目标特征的相似度、降低不同目标特征的相似度的准则来学习表征;步骤六:通过目标在不同帧之间的运动关系直接实现目标追踪。2.如权利要求1所述的一种基于目标运动预测的多目标追踪方法,其特征在于,步骤二所述的数据增强操作是指:对于原始图像,进行翻转、裁剪、旋转或仿射变换,详细步骤包括:步骤a1:随机对图像进行左右翻转,保持所有目标仍在原图像内;步骤a2:随机对图像进行裁剪、旋转、仿射变换,保证图像内至少还剩一个目标;步骤a3:随机对图像进行高斯模糊、HSV色彩变换。3.如权利要求1或2所述的一种基于目标运动预测的多目标追踪方法,其特征在于,步骤三所述的通过无锚点检测器直接对整张图片提取特征,同时预测每个目标的位置和大小,两个分支的检测器共享参数,同时优化,减少了参数数量。4.如权利要求1

3任一所述的一种基于目标运动预测的多目标追踪方法,其特征在于,步骤四所述的相关性模块是一种获取目标在相邻帧之间的位置关系,对运动信息进行建模而设计的计算模块,详细步骤包括:对于两张高度为H,宽度为W,通道数为C的特征图f1,f2∈R
HW
×
C
,对于f1中的点每一个像素点p1与f2中的点p2,需要在p1周围半径为d(displacement)的方形区域内寻找相关性最高的点,即p1,p2满足p1=p2+off,其中off∈[

d,d]
×
[

d,d],令其输出的相关性图表示为假定Corr
(p1,p2)
表示p1与p2两处的相关性,令f
i
(pi+o)∈R

【专利技术属性】
技术研发人员:钱卓褚殿慧钟宇腾
申请(专利权)人:灵译脑科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1