一种基于Attention-JDE网络的行人多目标跟踪方法技术

技术编号:34528144 阅读:19 留言:0更新日期:2022-08-13 21:19
本发明专利技术提供一种基于Attention

【技术实现步骤摘要】
一种基于Attention

JDE网络的行人多目标跟踪方法


[0001]本专利技术涉及图像处理的
,特别是一种基于Attention

JDE网络的行人多目标跟踪方法。

技术介绍

[0002]目标跟踪是计算机视觉领域的研究热点,研究的内容主要为如何在视频序列中检测定位感兴趣的目标,随后利用算法预测这些目标在后续序列中的位置、状态等信息。多目标跟踪(Multiple Object Tracking,MOT),是指在不需要事先知道目标的外观和数量的情况下,对视频中的多个物体进行识别和跟踪。MOT算法通常需要利用目标检测算法将感兴趣目标框出,然后将目标的ID与这些检测框进行关联,不同的目标应该分配不同的ID,以区分类内对象形成完整的跟踪轨迹。行人多目标跟踪是多目标跟踪的一个分支,是行人行为分析的底层基础,为场景理解、人群行为分析等高级语义任务服务,被广泛应用于智能视频监控、智能交通、无人驾驶等领域。在行人跟踪任务中,首先需要对视频数据中拆分出的每一帧图像进行行人目标的特征提取、处理和分析,然后将这些信息与下一帧中相应的信息进行匹配完成跟踪。
[0003]多目标跟踪的困难主要来源于目标之间的各种遮挡和交叉,这些目标之间通常还会具有高度相似的外观。因此,多数情况下MOT算法的设计都更为复杂,随着深度学习的迅速发展,越来越多的算法开始利用深度学习的表征能力来解决多目标跟踪任务。但是对于复杂场景下的行人目标,遮挡现象发生更为频繁,且行人目标尺度变化大,小尺度目标难以跟踪,这对于深度学习方法仍然面临着一定的挑战。同时,多目标跟踪处理的是图像序列,这对其实时性要求较高,而当前的趋势是通过设计更深层的网络以获得更好的性能,这增加了计算资源的需求,而实际应用中的计算能力往往来自嵌入式设备或移动设备,远不能满足越来越庞大的计算资源需求,深度网络模型在实际应用中面临诸多挑战。因此,如何增强深度模型对于复杂场景下的行人跟踪能力,并且降低模型所需的计算资源,满足实际应用中的部署和实时性要求的研究具有较强的研究意义和实际价值。
[0004]多目标跟踪方法可以分为two

step方法和one

shot方法。Two

step多目标跟踪方法也称为tracking

by

detection方法,是指首先从视频帧中获取一组包含感兴趣目标的边界框,随后将前后帧中包含有相同目标的边界框分配为同一ID,这类方法首先需要检测出视频帧中的目标,随后将目标按照检测框裁剪,然后把裁剪的部分输入到嵌入模型中提取嵌入特征,最后根据嵌入特征和检测框进行相同目标之间的关联完成跟踪,因此目标检测算法的质量也会很大程度上影响最终的跟踪结果。Bewley等提出的Simple Online and Realtime Tracking(SORT)是最早利用卷积神经网络检测行人的MOT算法之一。该方法用Faster R

CNN计算的检测结果代替使用聚合通道特征获得的检测结果,他们使用了一种相对简单的关联方法,即使用卡尔曼滤波器预测物体的运动状态,然后借助匈牙利算法使用交并比(Intersection of Union,IoU)距离来计算代价矩阵,从而将检测结果关联起来。SORT方法仅用检测框的交并比距离作为匹配度量,这导致跟踪过程的的ID切换次数过高,
DeepSORT方法为了解决这一问题,进一步使用神经网络提取行人目标特征作为重识别特征,并使用所有目标特征之间的余弦距离计算代价矩阵,再结合IoU距离完成前后帧目标之间的匹配关联,最终相比SORT降低了约45%的ID切换次数,但是即使只计算提取嵌入特征消耗的时间,DeepSORT也仅能达到17.4FPS的跟踪速度。文献同样利用Faster R

CNN检测目标,不同的是,他们使用了基于相似性得分的方法计算代价矩阵并且使用了分组模型来完成关联。Yu等人利用改进的Faster R

CNN同样获得了不错的效果,他们在原Faster R

CNN中添加skip

pooling和多区域特征(multi

region features)在MOT行人跟踪数据集上表现良好。与DeepSORT类似,该方法跟踪速度仅为10FPS。此外在Faster R

CNN上添加一个分割分支的Mask R

CNN,被Zhou等人用于检测和跟踪行人同样取得了良好的效果,这两种方法中使用的关联策略都是卡尔曼滤波和匈牙利算法。
[0005]One

shot方法在近期逐渐成为了多目标跟踪领域的研究热点,得益于将表观嵌入和目标检测集成到单一网络中并行完成目标检测和表观特征的提取,二者共享了大部分的计算,one

shot方法能够达到远超Tracking by Detection方法的推理速度,但同时会降低准确率。Track

RCNN在Mask

RCNN的顶部添加一个全连接层提取用于数据关联的128维embedding特征,该方法不仅通过检测边界框进行跟踪,而是能够在像素级层面进行目标跟踪。JDE则将YOLOv3的预测头扩展提取embedding特征,随后用卡尔曼滤波和匈牙利算法完成目标的跟踪和匹配,将原YOLOv3方法转化为分类、定位、跟踪的多任务学习网络模型,相比Tracking by Detection方法节省了一个Re

ID模块的推理耗时,最终在准确率可以接近领先的Tracking by Detection方法的同时获得接近实时的推理速度。FairMot在JDE的工作上继续研究,发现Anchor Box并不适用于MOT任务,这是因为Anchor Box和目标区域会出现不对齐的问题,这导致网络训练时存在严重的歧义,此外,当两个目标的位置有部分重叠时,不同的Anchor Box可能会被分配到同一ID上,这两点导致跟踪的准确率降低,基于这一发现,FairMot使用Anchor free的目标检测器作为基础,将CenterNet扩展为目标跟踪模型,在准确率和推理速度上都获得了优于JDE的效果。LIANG等人认为目标的分类和定位需要的特征是类别的特征,而Re

ID需要区分类内的不同目标,在one

shot方法中,将这两种特征同时学习会导致检测和Re

ID的相互竞争,即在一项任务中准确高性能可能会导致另一项任务的性能下降,针对这个问题,提出了交叉相关网络(cross

correlation network)以学习检测和ReID任务的功能的共性和特殊性。对于特异性学习,学习反映不同特征通道之间的相关性的self

relation,以增强每个任务的特征表达。对于共性学习,可以通过精心设计的交叉关系机制来学习本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Attention

JDE网络的行人多目标跟踪方法,包括将调整分辨率的图片输入至DarkNet

53骨干网络提取三个不同尺度的特征图,其特征在于,还包括以下步骤:步骤1:将三个尺度的所述特征图作为输入,构建特征金字塔;步骤2:将所述特征金字塔的输出分别送入特征增强模块,完成特征精炼,同样输出三个新尺度的新特征图;步骤3:将所述新特征图用于检测行人,生成检测框,利用检测框和对应的嵌入特征进行前后帧相同目标匹配形成轨迹。2.如权利要求1所述的基于Attention

JDE网络的行人多目标跟踪方法,其特征在于,所述DarkNet

53骨干网络使用Mish激活函数,所述Mish激活函数图像为f(x)=x tanh(ln(1+e
x
))其中,x为输入特征。3.如权利要求2所述的基于Attention

JDE网络的行人多目标跟踪方法,其特征在于,所述特征增强模块由通道注意力模块、空间注意力模块和空间金字塔池化模块组成。4.如权利要求3所述的基于Attention

JDE网络的行人多目标跟踪方法,其特征在于,所述通道注意力模块的输入为前一次卷积的输出,表示为其中,表示通道数为C且宽为W高为H的输出维度。5.如权利要求4所述的基于Attention

JDE网络的行人多目标跟踪方法,其特征在于,所述通道注意力模块的工作方法为:步骤201:利用最大池化和平均池化获取全局的通道特征分布信息,分别表示为和其中,表示通道数为C且宽高都为1的输出维度,为通过最大池化获得的通道特征分布信息,为通过平均池化获得的通道特征分布信息;步骤202:将上述两个特征向量经过含有一个隐藏层的多层感知机MLP;步骤203:将得到的特征向量相加并经过一次sigmoid操作σ得到最终的通道注意力权重M
C
(F);步骤204:通过M
C
(F)与原输...

【专利技术属性】
技术研发人员:何宁晏康
申请(专利权)人:北京联合大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1