一种联合实例分割的行人多目标跟踪方法技术

技术编号:39329681 阅读:20 留言:0更新日期:2023-11-12 16:06
本发明专利技术公开了一种联合实例分割的行人多目标跟踪方法。所述方法采用ResNet

【技术实现步骤摘要】
一种联合实例分割的行人多目标跟踪方法


[0001]本专利技术涉及计算机视觉和深度学习
,具体涉及一种联合实例分割的行人多目标跟踪方法。

技术介绍

[0002]实例分割是计算机视觉中的热点问题,对图像进行目标检测以得到不同类别的目标区域,将同一类的目标区域细分得到特定区域目标候选区域,对每个候选区域进行分割得到目标图像的分割结果。实例分割被广泛应用于自动驾驶、医学诊断、治安管理等领域。
[0003]目前,大多数实例分割方法都有着不错的精度,例如Mask R

CNN、BlendMask等,但是大多数实例分割方法都有着计算量大,难以部署到嵌入式设备上的特点,并且在一些人口流量多、人群相互遮挡的场景中,实例分割的效果会大打折扣,难以部署到行人较多的应用场景中。
[0004]现有的多目标跟踪方法都是TBD(Tracking by Detection,基于检测进行跟踪)范式的跟踪方法,即先使用目标检测算法(例如YOLOv5、RetinaNet等)预测图像中的目标类别,并用矩形框进行定位,然后使用多目标跟踪算法(如SORT、DeepSORT等)根据得到的定位框进行目标跟踪。近年来,JDE范式的多目标跟踪方法逐渐发展起来,这类方法在进行目标检测的同时,还提取出定位框内的目标对象的外观特征向量,并根据前后帧中目标的外观特征向量之间的距离进行匹配。然而,在一些有严重遮挡的地方,仅通过目标的定位狂难以做到精确的跟踪,因此需要分割出目标的边缘,从而提供更加精确的定位信息。
[0005]在TBD范式的目标跟踪方法中,跟踪算法根据检测信息对前后帧目标进行匹配,虽然结构简单,但是造成了一些特征的浪费,在目标检测方法中一些提取出来的特征也可以作为目标关联的依据。将实例分割和多目标跟踪进行融合,可以同时解决目标检测、分割和跟踪的问题,同时可以尽可能地利用深度学习提取出来的特征,实现更高精度的跟踪。
[0006]目前的联合实例分割的多目标跟踪方法较少。专利技术专利CN202210565509《一种基于视觉的场外施工深度学习实例分割跟踪方法》使用了基于ResNet

101的掩码R

CNN对视频目标进行实例分割,并使用卡尔曼滤波预测检测框在下一帧的位置,同时提取出目标分割掩码的外观特征向量,实现对目标的实例分割和跟踪。在工业界中,掩码R

CNN虽然有较高的精度,但是计算较大,难以部署到边缘设备中,并且该方法只是在原始的掩码R

CNN上添加跟踪功能,没有对原先的分割网络做出改进。基于此,本专利技术提出一种轻量级的联合实例分割的多目标跟踪方法。

技术实现思路

[0007]有鉴于此,本专利技术提出一种实时的联合实例分割的行人多目标跟踪方法。该方法基于深度学习,在实例分割网络嵌入一个跟踪分支,实现一个高效运行的多目标分割跟踪方法,提高行人多目标跟踪的效率。
[0008]本专利技术的目的至少通过如下技术方案之一实现。
[0009]一种联合实例分割的行人多目标跟踪方法,该方法是一种基于深度学习的方法,在进行前向推理时,以一个视频帧序列图像作为输入,最后端到端地输出视频帧中所有可能存在的目标实例的目标检测信息,包括目标类别分数、目标检测框、目标实例分割掩码和目标跟踪轨迹,所述方法包括以下几个步骤:
[0010]S1、将视频帧数据进行归一化后,送入特征提取网络中,提取出多尺度的特征图;
[0011]S2、将步骤S1中提取的多尺度的特征图送入到目标检测分支中,生成行人检测框、类别和分割掩码系数;
[0012]S3、将步骤S1中提取的分辨率最大的一个特征图送入分割分支中,生成分割原型掩码,与步骤S2中生成的分割掩码系数进行线性相乘,并通过Sigmoid函数进行归一化,得到最终的目标分割掩码;
[0013]S4、将每个目标实例的分割掩码送入到跟踪分支中生成外观向量,计算当前帧检测框和跟踪框之间的IoU值,以及当前帧的目标外观向量和之前帧的目标外观向量之间的内积,将IoU值与内积值之和构成分数矩阵,并利用匈牙利算法进行前后帧相同目标的匹配,形成跟踪轨迹。
[0014]进一步地,步骤S1中,所述特征提取网络包括轻量级的ResNet

18网络和FPN特征金字塔网络,使得该方法能在特征提取阶段消耗较少的计算资源,并能在嵌入式设备上实时运行;ResNet

18网络对图像进行特征提取后,输出多个不同维度的特征图,包括维度从大到小排列的第一主干网络特征图C2、第二主干网络特征图C3、第三主干网络特征图C4和第四主干网络特征图C5;
[0015]其中,第二主干网络特征图C3、第三主干网络特征图C4和第四主干网络特征图C5后分别接入一个轻量级的CBAM模块,将每个CBAM模块分别对应输出第一CBAM特征图C3

、第二CBAM特征图C4

和第三CBAM特征图C5

送入到FPN网络中,提高模型在感兴趣区域的特征提取能力,最后FPN网络生成五个不同维度的特征图,包括维度从大到小排列的第一FPN特征图P3、第二FPN特征图P4、第三FPN特征图P5、第四FPN特征图P6和第五FPN特征图P7,具体操作为:
[0016]将第三CBAM特征图C5

进行1
×
1卷积得到第三FPN特征图P5,将第三FPN特征图P5进行上采样,使得第三FPN特征图P5的分辨率成为原来的2倍,并进行1
×
1卷积操作;将第二CBAM特征图C4

进行1
×
1卷积操作,并与第三FPN特征图P5进行相加,得到第二FPN特征图P4,同样对第二FPN特征图P4进行上采样和1
×
1卷积;将第一CBAM特征图C3

进行1
×
1卷积操作,并与第二FPN特征图P4进行相加,得到第一FPN特征图P3;对第三FPN特征图P5进行两次3
×
3卷积操作,分别得到第四FPN特征图P6和第五FPN特征图P7。
[0017]进一步地,所述目标检测分支由4个3
×
3卷积层构成共享的卷积通道,然后接入3个3
×
3卷积分别生成类别预测张量、框预测张量、分割掩码系数预测张量;类别预测张量的维度大小为K
×
H
×
W,其中K为类别数量,框预测张量的维度大小为4
×
H
×
W,分割掩码系数的维度大小为32
×
H
×
W;其中每个预测张量的分辨率与输入的特征图相同,H为预测张量的高,W为预测张量的宽
[0018]进一步地,步骤S3中,所述分割分支包括3个卷积层、1个全局注意力上采样模块和2个卷积层,其步骤为:
[0019]S101、在分割分支中,先将第一FPN特征图P3经过3层卷积操作本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种联合实例分割的行人多目标跟踪方法,其特征在于,包括以下几个步骤:S1、将视频帧数据进行归一化后,送入特征提取网络中,提取出多尺度的特征图;S2、将步骤S1中提取的多尺度的特征图送入到目标检测分支中,生成行人检测框、类别和分割掩码系数;S3、将步骤S1中提取的分辨率最大的一个特征图送入分割分支中,生成分割原型掩码,与步骤S2中生成的分割掩码系数进行线性相乘,并通过Sigmoid函数进行归一化,得到最终的目标分割掩码;S4、将每个目标实例的分割掩码送入到跟踪分支中生成外观向量,计算当前帧检测框和跟踪框之间的IoU值,以及当前帧的目标外观向量和之前帧的目标外观向量之间的内积,将IoU值与内积值之和构成分数矩阵,并利用匈牙利算法进行前后帧相同目标的匹配,形成跟踪轨迹。2.根据权利要求1所述的一种联合实例分割的行人多目标跟踪方法,其特征在于,包括以下几个步骤:S1、将视频帧数据进行归一化后,送入特征提取网络中,提取出多尺度的特征图;S2、将步骤S1中提取的多尺度的特征图送入到目标检测分支中,生成行人检测框、类别和分割掩码系数;S3、将步骤S1中提取的分辨率最大的一个特征图送入分割分支中,生成分割原型掩码,与步骤S2中生成的分割掩码系数进行线性相乘,并通过Sigmoid函数进行归一化,得到最终的目标分割掩码;S4、将每个目标实例的分割掩码送入到跟踪分支中生成外观向量,计算当前帧检测框和跟踪框之间的IoU值,以及当前帧的目标外观向量和之前帧的目标外观向量之间的内积,将IoU值与内积值之和构成分数矩阵,并利用匈牙利算法进行前后帧相同目标的匹配,形成跟踪轨迹。,其特征在于,步骤S1中,所述特征提取网络包括ResNet

18网络和FPN特征金字塔网络;ResNet

18网络对图像进行特征提取后,输出多个不同维度的特征图,包括维度从大到小排列的第一主干网络特征图C2、第二主干网络特征图C3、第三主干网络特征图C4和第四主干网络特征图C5;其中,第二主干网络特征图C3、第三主干网络特征图C4和第四主干网络特征图C5后分别接入一个CBAM模块,将每个CBAM模块分别对应输出第一CBAM特征图C3

、第二CBAM特征图C4

和第三CBAM特征图C5

送入到FPN网络中,最后FPN网络生成五个不同维度的特征图,包括维度从大到小排列的第一FPN特征图P3、第二FPN特征图P4、第三FPN特征图P5、第四FPN特征图P6和第五FPN特征图P7,具体操作为:将第三CBAM特征图C5

进行1
×
1卷积得到第三FPN特征图P5,将第三FPN特征图P5进行上采样,使得第三FPN特征图P5的分辨率成为原来的2倍,并进行1
×
1卷积操作;将第二CBAM特征图C4

进行1
×
1卷积操作,并与第三FPN特征图P5进行相加,得到第二FPN特征图P4,同样对第二FPN特征图P4进行上采样和1
×
1卷积;将第一CBAM特征图C3

进行1
×
1卷积操作,并与第二FPN特征图P4进行相加,得到第一FPN特征图P3;对第三FPN特征图P5进行两次3
×
3卷积操作,分别得到第四FPN特征图P6和第五FPN特征图P7。3.根据权利要求1所述的一种联合实例分割的行人多目标跟踪方法,其特征在于,包括以下几个步骤:
S1、将视频帧数据进行归一化后,送入特征提取网络中,提取出多尺度的特征图;S2、将步骤S1中提取的多尺度的特征图送入到目标检测分支中,生成行人检测框、类别和分割掩码系数;S3、将步骤S1中提取的分辨率最大的一个特征图送入分割分支中,生成分割原型掩码,与步骤S2中生成的分割掩码系数进行线性相乘,并通过Sigmoid函数进行归一化,得到最终的目标分割掩码;S4、将每个目标实例的分割掩码送入到跟踪分支中生成外观向量,计算当前帧检测框和跟踪框之间的IoU值,以及当前帧的目标外观向量和之前帧的目标外观向量之间的内积,将IoU值与内积值之和构成分数矩阵,并利用匈牙利算法进行前后帧相同目标的匹配,形成跟踪轨迹。,其特征在于,所述目标检测分支由4个3
×
3卷积层构成共享的卷积通道,然后接入3个3
×
3卷积分别生成类别预测张量、框预测张量、分割掩码系数预测张量;类别预测张量的维度大小为K
×
H
×
W,其中K为类别数量,框预测张量的维度大小为4
×
H
×
W,分割掩码系数的维度大小为32
×
H
×
W;其中H为预测张量的高,W为预测张量的宽,每个预测张量的分辨率与输入的特征图相同。4.根据权利要求3所述的一种联合实例分割的行人多目标跟踪方法,其特征在于,包括以下几个步骤:S1、将视频帧数据进行归一化后,送入特征提取网络中,提取出多尺度的特征图;S2、将步骤S1中提取的多尺度的特征图送入到目标检测分支中,生成行人检测框、类别和分割掩码系数;S3、将步骤S1中提取的分辨率最大的一个特征图送入分割分支中,生成分割原型掩码,与步骤S2中生成的分割掩码系数进行线性相乘,并通过Sigmoid函数进行归一化,得到最终的目标分割掩码;S4、将每个目标实例的分割掩码送入到跟踪分支中生成外观向量,计算当前帧检测框和跟踪框之间的IoU值,以及当前帧的目标外观向量和之前帧的目标外观向量之间的内积,将IoU值与内积值之和构成分数矩阵,并利用匈牙利算法进行前后帧相同目标的匹配,形成跟踪轨迹。,其特征在于,步骤S3中,所述分割分支包括3个卷积层、1个全局注意力上采样模块和2个卷积层,其步骤为:S101、在分割分支中,先将第一FPN特征图P3经过3层卷积操作得到特征增强后的特征图第一分割分支特征图P3_1;S102、将ResNet

18网络生成的分辨率为2H
×
2W的第一主干网络特征图C2和第一分割分支特征图P3_...

【专利技术属性】
技术研发人员:刘永桂林锐
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1