当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于深度学习和时序特征增强的视频多目标跟踪方法技术

技术编号:34891755 阅读:20 留言:0更新日期:2022-09-10 13:50
本发明专利技术涉及计算机视觉领域,公开了一种基于深度学习和时序特征增强的视频多目标跟踪方法,包括以下步骤:S1、准备和处理数据集,将处理后的数据作为模型训练和测试的输入数据;S2、对模型结构中的目标检测与ReID任务进行分离;S3、利用时序信息构建ReID任务模块改善模型结构;S4、模型的后处理推理,将所述改善后的模型结构应用到多目标跟踪的数据关联匹配过程里。本发针对目标检测与ReID两种任务在训练时存在的问题进行改善,将检测和ReID分支进行了分离,使两块结构在保持功能精度的同时,使其更具独立性并提升了检测的性能。并且利用了时序信息,结合了历史帧的中心点特征并添加了特征加强模块,从而去改善模型在无人机视频序列上的多目标跟踪性能。列上的多目标跟踪性能。列上的多目标跟踪性能。

【技术实现步骤摘要】
一种基于深度学习和时序特征增强的视频多目标跟踪方法


[0001]本专利技术涉及计算机视觉领域,具体是涉及一种基于深度学习和时序特征增强的视频多目标跟踪方法。

技术介绍

[0002]近年来,随着人工智能技术的快速发展,计算机视觉技术也已渗透到各个领域之中,并且应用场景也越来越广泛。充分利用好计算机视觉技术,可以在很大程度上提高环境监测以及国防安全监测的效率。而通过计算机视觉技术来完成多目标检测与跟踪任务也逐渐成为近几年的研究热点之一。多目标跟踪是指在视频的连续帧序列中,对每一帧的所有目标物体进行检测,得到每一个目标的位置、包围框尺寸以及速度等属性,并对每一帧中同一个体赋予相同的ID标识,从而完成在视频序列中对多个目标的检测和跟踪任务。
[0003]基于目标检测的结果完成后续的跟踪匹配则是基于检测去做跟踪的主要思路,主流的基于包围框的目标检测算法有YOLO系列的算法,Faster RCNN以及RetinaNet等,近几年也出现了很多基于中心点的目标检测anchor

free算法,例如CenterNet,FCOS,CenterPoint等目标检测算法。在TBD算法体系中,对目标检测之后需要进行帧与帧之间的数据关联与匹配,SORT以及DeepSORT算法是比较经典目标匹配算法,往往可以与简单的目标检测算法进行结合完成多目标跟踪任务。同样可以基于anchor

free框架实现多目标跟踪的任务,在JDT的框架结构中,比如RetinaTrack,以及FairMOT,两种方法将检测与跟踪进行结合,简化了模型结构并提升了计算的实时性。
[0004]多目标跟踪是一个跨帧的视频解译任务,而目前的研究中大多数模型没有很好地利用起时间序列的信息,仅仅依赖当前帧的图像信息存在一定局限性,目标缺少帧与帧之间的联系。例如物体在某一帧被遮挡,如果仅依靠单帧信息进行数据关联,往往会出现相同的物体表征信息不同的情况,因而就会导致IDSwitch的情况,从而降低了模型的精度。因而如何利用好时序信息可以在很大程度上提高模型的性能。除此之外,JDT范式的模型虽然将检测和数据关联进行联合训练,实现端到端的多目标跟踪,但是目标检测和跟踪往往是两个不同的视觉任务,目标检测需要将区分多个类别的物体,使得不同类别物体间距离最大化,并且最小化同一类物体之间的距离,这样才能提高目标检测的精度。但是目标跟踪则是需要最大化同一类别的所有物体之间的距离,因而如果两种子任务在训练时共享较多参数,模型的训练效率可能会降低,并且所训模型在一些情况下的性能可能会变差。

技术实现思路

[0005]针对上述问题,本专利技术提出了一种基于深度学习和时序特征增强的视频多目标跟踪方法,以FairMOT作为原始的基准结构,对于整体的模型结构来说,首先将原始模型检测和特征生成的结构进行拆分,并在ReID支路上添加基于时序信息的特征增强模块,提高模型对于ReID信息的判别能力,在模型loss的计算过程中,相较于原有的单帧loss计算,我们在模型检测的输出部分,进行了双帧输出,将相邻帧的输出同时进行loss计算,提高模型的
训练效率以及偏向性。
[0006]为了实现上述目的,本专利技术提供一种基于深度学习和时序特征增强的视频多目标跟踪方法,包括以下步骤:
[0007]S1、准备和处理数据集,将处理后的数据作为模型训练和测试的输入数据;
[0008]S2、对模型结构中的目标检测与ReID任务进行分离;
[0009]S3、利用时序信息构建ReID任务模块改善模型结构;
[0010]S4、模型的后处理推理,将所述改善后的模型结构应用到多目标跟踪的数据关联匹配过程里。
[0011]优选的,所述步骤S1具体包括以下步骤:
[0012]S11、收集无人机视频序列集合作为数据集;
[0013]S12、将所述数据集标注为coco格式,所述coco格式能够提供帧数的序号、目标ID、包围框左上顶点坐标、包围框的宽与高、该目标是否被遮挡以及该目标是否需要被忽略;
[0014]S13、对所述数据集根据类别对ID进行统计;
[0015]S14、将所述数据集中的每一张图像进行旋转和缩放处理。
[0016]优选的,所述步骤S2具体包括以下步骤:
[0017]S21、将模型上的骨干网络的解码器改为两个相同结构的解码器分别用于目标检测与ReID任务;
[0018]S22、模型输入改为双帧输入并将两帧图像进行参数共享后通过编码器进行特征提取;
[0019]S23、将提取到特征同时输入所述两个结构相同的解码器中分别进行目标检测与ReID任务。
[0020]优选的,所述步骤S23具体为:在目标检测部分,首先在由解码器得到的上一帧的特征后接一个多层的卷积并将该特征图与由解码器得到的当前帧的特征进行拼接,最后通过热度图分支得到目标检测分支的输出;在ReID任务部分,添加了特征加强模块,将由解码器得到的相邻帧特征以及上一帧的热度图作为特征模块的输入信息,经过模块的信息整合后得到ReID任务分支的输出。
[0021]优选的,所述步骤S3具体分为训练阶段和推理阶段。
[0022]优选的,所述训练阶段具体包括以下步骤:
[0023]S311、通过数据集的标注信息获取上一帧中特征图相应位置的特征将其与当前特征图进行相似度计算得到上一帧中每一个物体与当前帧每一个点的特征距离;
[0024]S312、得到上一帧中特征图与当前特征图的两两对应的位置信息之后进行特征融合。
[0025]优选的,所述推理阶段具体包括以下步骤:
[0026]S321、利用热度图中得到上一帧可能存在的目标数目,并将这些目标对应位置的ReID特征信息作为输入之一到特征模块中;
[0027]S322、设置一个阈值,若上一帧的中心点与匹配到的当前帧中心点位置相距超过所述阈值,则认为该匹配到的点不可信将其忽略,只保留可信度大的匹配点与当前特征图进行特征融合。
[0028]优选的,所述步骤S3具体为将上一帧的热度图、上一帧的特征图以及当前帧的特
征图进行特征融合。
[0029]优选的,所述步骤S4具体包括以下步骤:
[0030]S41、以三帧作为一个回合,第一帧将模型得到的热度图以及ReID特征进行归一化与标准化,并对热度图进行非极大值抑制处理,根据所设阈值筛选出可能存在的物体,对第一帧的物体进行赋予ID;
[0031]S42、第二帧重复第一帧的操作,得到可能存在的物体后,将其进行与第一帧的物体进行包围框iou的匹配,保留符合预期的检测,赋予相同ID,并保留那些未匹配上的物体;
[0032]S43、第三帧则是在第二帧的基础上添加ReID特征,将相邻帧的检测目标进行ReID特征的余弦距离计算,并通过卡尔曼滤波进行运动预测,结合表观与运动特征进行数据关联;
[0033]S44、将第三帧中未匹配上的物体与上一帧的物体进行iou计算,如果小于固本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习和时序特征增强的视频多目标跟踪方法,其特征在于,包括以下步骤:S1、准备和处理数据集,将处理后的数据作为模型训练和测试的输入数据;S2、对模型结构中的目标检测与ReID任务进行分离;S3、利用时序信息构建ReID任务模块改善模型结构;S4、模型的后处理推理,将所述改善后的模型结构应用到多目标跟踪的数据关联匹配过程里。2.根据权利要求1所述的一种基于深度学习和时序特征增强的视频多目标跟踪方法,其特征在于,所述步骤S1具体包括以下步骤:S11、收集无人机视频序列集合作为数据集;S12、将所述数据集标注为coco格式,所述coco格式能够提供帧数的序号、目标ID、包围框左上顶点坐标、包围框的宽与高、该目标是否被遮挡以及该目标是否需要被忽略;S13、对所述数据集根据类别对ID进行统计;S14、将所述数据集中的每一张图像进行旋转和缩放处理。3.根据权利要求1所述的一种基于深度学习和时序特征增强的视频多目标跟踪方法,其特征在于,所述步骤S2具体包括以下步骤:S21、将模型上的骨干网络的解码器改为两个相同结构的解码器分别用于目标检测与ReID任务;S22、模型输入改为双帧输入并将两帧图像进行参数共享后通过编码器进行特征提取;S23、将提取到特征同时输入所述两个结构相同的解码器中分别进行目标检测与ReID任务。4.根据权利要求3所述的一种基于深度学习和时序特征增强的视频多目标跟踪方法,其特征在于,所述步骤S23具体为:在目标检测部分,首先在由解码器得到的上一帧的特征后接一个多层的卷积并将该特征图与由解码器得到的当前帧的特征进行拼接,最后通过热度图分支得到目标检测分支的输出;在ReID任务部分,添加了特征加强模块,将由解码器得到的相邻帧特征以及上一帧的热度图作为特征模块的输入信息,经过模块的信息整合后得到ReID任务分支的输出。5.根据权利要求1所述的一种基于深度学习和时序特征增强的视频多目标跟踪方法,其特征在于,所述步骤S3具体分为训练阶段和推理阶段。6.根据权利要求5所述...

【专利技术属性】
技术研发人员:刘勇林叶能王蒙蒙
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1