一种适用于嵌入式终端的多目标跟踪方法及其系统技术方案

技术编号:29020900 阅读:14 留言:0更新日期:2021-06-26 05:22
本发明专利技术涉及计算机视觉领域,特别是一种适用于嵌入式终端的多目标跟踪方法及其系统。该方法包括如下步骤:S1:对视频进行分帧得到目标图像;S2:构建包括检测器和跟踪器多目标跟踪神经网络模型;检测器将骨干网络的特征提取网络替换为ShuffleNetV1;跟踪器采用Deep

【技术实现步骤摘要】
一种适用于嵌入式终端的多目标跟踪方法及其系统


[0001]本专利技术涉及计算机视觉领域,特别是一种适用于嵌入式终端的多目标跟踪方法及其系统。

技术介绍

[0002]在计算机视觉中,目标检测与目标跟踪属于交叉领域,目标检测是在图像和视频中扫描和搜寻目标,在一个场景中对目标进行定位和识别;而目标跟踪则是在给定了目标的初始状态后,对目标之后的位置和大小进行准确的预测,从而得到物体的运动状态。近些年,随着深度学习的不断发展,卷积神经网络被广泛用于目标检测和目标跟踪领域,并取得了很好的效果。
[0003]目标检测主要采用深度学习神经网络来完成,其中,YOLO系列算法和SSD算法是其中的代表;YOLOv4是YOLO系列算法的第四版本,经过了前三代的迭代,目前采用了最新的CSP和PANet的网络结构,拥有了更高的准确率,能达到接进于Two

Stage的精确度,且保证了一定的速度优势。多目标跟踪(Multiple Object Tracking,MOT)主要任务是在给定视频中同时对多个感兴趣的目标进行定位,并且维持他们的ID、记录他们的轨迹。随着深度学习的兴起,目标检测的准确性越来越高,基于深度学习的目标检测算法(Tracking By Detecting)在实际工程落地也越来越广泛。多假设跟踪和联合概率数据关联过滤器引入单摄像机多目标跟踪,这些方法进行逐帧的数据关联,但是其复杂度较大,不易实现。随后,简单的在线和实时跟踪SORT算法被提出,它使用匈牙利算法衡量预测轨迹与跟踪目标之间的联系,并用关联度作为衡量边界框重叠的标准。SORT算法相对之前的算法在性能方面获得了较大提升,但是SORT算法的依然存在身份转换数量较多的缺点。
[0004]目前使用的各类基于目标检测的目标跟踪算法实现过程的计算量极大,模型的运行成本高昂。在基于检测的多目标跟踪方法中,需要对每帧画面进行检测,才能得到目标的运动轨迹。目标的位置是通过检测器得到的,对目标检测器的精确度要求极高,不能出现误检、漏检等情况,同时要求检测速度要快,能够在实时的视频流中得到精准的结果,并用于之后的追踪。
[0005]其中,以目前的YOLOv4为例,其采用CSPDarkNet53作为骨干网络,该网络包含53层卷积层,27.6M参数量,模型文件大小已经达到246M,复杂度很高。而基于检测的多目标跟踪方法Deep

SORT中,目标的位置是通过检测器得到的,而用于跟踪器的特征则是需要另外的卷积神经网络来提取,这也增加了计算的成本,降低了检测效率。基于上述原因,现有的各类多目标跟踪方法的模型通常非常庞大,虽然在具有高性能GPU的系统上可以达到较好的工程效果,但是模型的实时性依然存在不足,无法较好地完成对象的实时跟踪。此外,这些追踪方法通常也很难在基于ARM等架构的低性能的嵌入式终端设备上运行和实现,这极大地限制了多目标跟踪算法的应用。

技术实现思路

[0006]为克服现有技术中的问题,本专利技术提供一种改进的多目标跟踪方法,解决了现有的多目标跟踪方法受到硬件设备限制,无法达到实时跟踪效果的问题。
[0007]本专利技术的提供的技术方案如下:
[0008]一种适用于嵌入式终端的多目标跟踪方法,该多目标跟踪方法包括如下步骤:
[0009]S1:对监控跟踪对象的视频进行分帧得到若干连续帧图像,将获取的连续帧图像作为用于进行处理的目标图像;
[0010]S2:构建改进的多目标跟踪神经网络模型,多目标跟踪神经网络模型包括检测器和跟踪器;检测器采用YOLOv4网络作为基础网络,并将YOLOv4网络结构中的CSPDarkNet53特征提取网络替换为轻量化的骨干网络ShuffleNetV1;跟踪器采用Deep

SORT网络作为基础网络,并将跟踪器中由卷积神经网络完成的特征提取过程替换为ShuffleNetV1网络提取的特征;
[0011]S3:使用改进后的检测器对目标图像进行目标检测,获得目标检测框的集合;
[0012]S4:在跟踪器中使用卡尔曼滤波器基于获取到的目标检测框对跟踪对象进行状态预测,获得目标跟踪框;
[0013]S5:根据跟踪器预测的轨迹状态和检测器中ShuffleNetV1网络提取到的特征,计算所有目标检测框和目标跟踪框之间的运动匹配度和特征匹配度,构建目标检测框和目标跟踪框之间的关联成本代价矩阵;
[0014]S6:对关联成本代价矩阵中的关联代价进行级联匹配,确定跟踪结果,实现多目标跟踪过程。
[0015]进一步地,ShuffleNetV1网络的结构包括依次连接的Stage1

Stage6阶段,其中,Stage1阶段包括依次连接的3
×
3卷积层和最大池化层;Stage2阶段包括依次连接的一层ShuffleNet unit1和三层ShuffleNet unit2;Stage3阶段包括依次连接的一层ShuffleNet unit1和七层ShuffleNet unit2;Stage4阶段包括依次连接的一层ShuffleNet unit1和三层ShuffleNet unit2;Stage5阶段包括全局池化层;Stage6阶段包括全连接层。
[0016]改进后的检测器中,使用ShuffleNetV1中的Stage2

3阶段的输出,替代原始骨干网络中CSPDarkNet53中的tage3

5阶段的输出;同时,将该输出结果做为YOLOv4中多尺度颈部网络SPP+PAN网络结构的输入,并保留做为预测结果部分的YOLO检测头部分。
[0017]进一步地,ShuffleNetV1网络中,ShuffleNet unit1是上一层的输入经由1
×
1逐点群卷积层、通道洗牌层、深度可分离卷积层、1
×
1逐点群卷积层处理的输出,与上一层输入经过一次平均池化层后的输出进行Concat操作完成的;ShuffleNet unit2是上一层的输入经由1
×
1逐点群卷积层、通道洗牌层、深度可分离卷积层、1
×
1逐点群卷积层处理的输出,与上一层的输入进行Add操作完成的。
[0018]进一步地,步骤S3中,目标检测框的获取过程包括如下步骤:
[0019]S31:将提取到的目标图像经过ShuffleNet网络处理,获得检测目标的三种不同分辨率的特征图;
[0020]S32:将获取的三种不同分辨率的特征图输入端YOLOv4网络中多尺度网络结构的特征金字塔模块中;Stage3阶段的特征图经过空间金字塔池化SPP网络输出,再将输出的结果与Stage1

2一起进入到路径汇聚PANet网络中,输出三个阶段中各层输出经过多尺度融
合后的输出结果;
[0021]S33:针对多尺度融合后输出的不同尺度的特征,将低层次特征图的候选框设置为小尺寸候选框;将高层次特征图的候选框设置为大尺寸候选框;
...

【技术保护点】

【技术特征摘要】
1.一种适用于嵌入式终端的多目标跟踪方法,其特征在于,所述多目标跟踪方法包括如下步骤:S1:对监控跟踪对象的视频进行分帧得到若干连续帧图像,将获取的连续帧图像作为用于进行处理的目标图像;S2:构建改进的多目标跟踪神经网络模型,所述多目标跟踪神经网络模型包括检测器和跟踪器;所述检测器采用YOLOv4网络作为基础网络,并将YOLOv4网络结构中的CSPDarkNet53特征提取网络替换为轻量化的骨干网络ShuffleNetV1;所述跟踪器采用Deep

SORT网络作为基础网络,并将跟踪器中由卷积神经网络完成的特征提取过程替换为ShuffleNetV1网络提取的特征;S3:使用改进后的检测器对目标图像进行目标检测,获得目标检测框的集合;S4:在跟踪器中使用卡尔曼滤波器基于获取到的目标检测框对跟踪对象进行状态预测,获得目标跟踪框;S5:根据跟踪器预测的轨迹状态和检测器中ShuffleNetV1网络提取到的特征,计算所有目标检测框和目标跟踪框之间的运动匹配度和特征匹配度,构建目标检测框和目标跟踪框之间的关联成本代价矩阵;S6:对关联成本代价矩阵中的关联代价进行级联匹配,确定跟踪结果,实现多目标跟踪过程。2.如权利要求1所述的适用于嵌入式终端的多目标跟踪方法,其特征在于:所述ShuffleNetV1网络的结构包括依次连接的Stage1

Stage6阶段,所述Stage1阶段包括依次连接的3
×
3卷积层和最大池化层;所述Stage2阶段包括依次连接的一层ShuffleNet unit1和三层ShuffleNet unit2;所述Stage3阶段包括依次连接的一层ShuffleNet unit1和七层ShuffleNet unit2;所述Stage4阶段包括依次连接的一层ShuffleNet unit1和三层ShuffleNet unit2;所述Stage5阶段包括全局池化层;所述Stage6阶段包括全连接层;所述改进后的检测器中,使用ShuffleNetV1中的Stage2

3阶段的输出,替代原始骨干网络中CSPDarkNet53中的tage3

5阶段的输出;同时,将该输出结果做为YOLOv4中多尺度颈部网络SPP+PAN网络结构的输入,并保留做为预测结果部分的YOLO检测头部分。3.如权利要求2所述的适用于嵌入式终端的多目标跟踪方法,其特征在于:所述ShuffleNetV1网络中,ShuffleNet unit1是上一层的输入经由1
×
1逐点群卷积层、通道洗牌层、深度可分离卷积层、1
×
1逐点群卷积层处理的输出,与上一层输入经过一次平均池化层后的输出进行Concat操作完成的;ShuffleNet unit2是上一层的输入经由1
×
1逐点群卷积层、通道洗牌层、深度可分离卷积层、1
×
1逐点群卷积层处理的输出,与上一层的输入进行Add操作完成的。4.如权利要求3所述的适用于嵌入式终端的多目标跟踪方法,其特征在于:所述步骤S3中,目标检测框的获取过程包括如下步骤:S31:将提取到的目标图像经过ShuffleNet网络处理,获得检测目标的三种不同分辨率的特征图;S32:将获取的三种不同分辨率的特征图输入端YOLOv4网络中多尺度网络结构的特征金字塔模块中;所述Stage3阶段的特征图经过空间金字塔池化SPP网络输出,再将输出的结果与Stage1

2一起进入到路径汇聚PANet网络中,输出三个阶段中各层输出经过多尺度融
合后的输出结果;S33:针对多尺度融合后输出的不同尺度的特征,将低层次特征图的候选框设置为小尺寸候选框;将高层次特征图的候选框设置为大尺寸候选框;S34:在YOLOv4网络的检测头部分,基于上步骤根据分辨率差异设置的候选框的尺寸;在不同尺度的特征图上进行目标位置回归和分类,从而得到目标检测框的集合。5.如权利要求1所述的适用于嵌入式终端的多目标跟踪方法,其特征在于:所述步骤S4中,获取目标跟踪框的过程包括如下步骤:S41:使用改进后的YOLOv4网络获取到第一帧目标图像对应的目标检测框集合;S42:为获取的目标检测框集合中的每个目标检测框分配一个卡尔曼滤波器;S43:根据目标检测框中的目标状态信息,通过对应的卡尔曼滤波器依次对后一时刻帧的目标状态进行先验估计,进而获得当前时刻帧下目标跟踪框;所述当前时刻帧下目标跟踪框的获取过程包括状态估计和轨迹处理两个部分,其处理步骤如下:S431:定义一个8维空间(u,v,r,h,x',y',r',h'),以所述8维空间表示对应目标所处的轨迹状态;其中,u,v,r,h分别表示目标矩形框的中心点位置,且u,v表示目标中心点坐标,r是长宽比,h是高;x',y',r',h'四个参数分别代表目标对应的速度,即表示运动目标分别在u,v,r,h四个参数下的运动速度;S432:使用卡尔曼滤波器对相应目标预测更新轨迹,完成所述状态估计过程;其中,所述卡尔曼滤波器采用匀速模型和线性观测模型对目标进行轨迹更新,卡尔曼滤波器的观测变量为参数u、v、r和h;S433:定义一个阈值a;使用阈值a记录轨迹从上一次成功匹配到当前时刻的时长;S434:判断阈值a的时长与最大运行阈值Amax的关系:(1)当a≤Amax,则认为该轨迹能够进行匹配,继续这段轨迹;(2)当a>Amax,则认为长...

【专利技术属性】
技术研发人员:刘子龙万森程腾张海涛黄凌
申请(专利权)人:安徽科大擎天科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1