【技术实现步骤摘要】
密集场景中的多目标跟踪方法、系统及电子设备
[0001]本专利技术涉及多目标跟踪
,尤其是指一种密集场景中的多目标跟踪方法、系统及电子设备。
技术介绍
[0002]随着计算机视觉领域的快速发展,多目标跟踪算法的精度也得到了提高。特别是,在普通的行人跟踪场景中,已经取得了相当大的准确性。然而,主流模式在密集的场景中仍有改进的空间。拥挤场景中的多个目标跟踪需要更精细的特征表示,因此需要对现有的网络进行改进,改进后的网络能够在密集场景的多目标跟踪上有较好的性能。
[0003]多目标跟踪(MOT)是计算机视觉中的一个经典任务。它试图在视频中找到帧之间的关系,并用一个边界框和ID标记相同的对象。在这一领域的研究中已经有了很多的应用,如自动驾驶、视频分析、人机交互等。近年来,大多数MOT算法都采用了一种被称为检测跟踪的方法。这意味着它首先使用一些特定的目标检测算法来获取每一帧中的对象位置,然后使用卡尔曼滤波、匈牙利匹配或其他进展后的方法来匹配两帧之间具有相同ID的相同对象。例如,JDE、DeepSort、关系跟踪和Simple跟踪都采用了这种方法。FairMOT是这类产品的重要代表。它使用了一个基于中心网络的目标检测网络,这是一种经典的无锚点目标检测算法。此外,它还平行于一个Re
‑
ID分支。FairMOT的多对象跟踪精度(MOTA)在MOT17数据集上达到73.7%,这在提交时是最先进的。
[0004]然而,FairMOT在密集的场景中效果并不是很好。只有61.8%MOTA在MOT20数 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种密集场景中的多目标跟踪方法,其特征在于:包括:步骤S1:获取第T帧图像,并对所述第T帧图像进行下采样,得到若干下采样特征图;步骤S2:将所述若干下采样特征图进行上采样和特征融合,得到第一特征图,并通过卷积对所述第一特征图进行映射得到热力图检测结果,并基于所述热力图检测结果得到目标人物检测框;同时对第T
‑
1帧图像中的目标人物在所述第T帧图像中的位置进行定位,得到定位结果;步骤S3:将所述目标人物检测框和定位结果进行IOU匹配,若第T帧图像和第T
‑
1帧图像中所有目标人物均IOU匹配成功,则完成目标跟踪;若第T帧图像和第T
‑
1帧图像中存在目标人物IOU匹配未成功;执行步骤S4;步骤S4:将所述步骤S1中的若干下采样特征图进行上采样,得到第二特征图,将所述第二特征图映射得到预设维度特征图,并对所述预设维度特征图进行降维,得到降维特征图;步骤S5:将所述降维特征图在IOU匹配基础上进行二次匹配,具体为:将所述降维特征图与预存的第T
‑
1帧图像中的目标人物进行匹配,若第T帧图像和第T
‑
1帧图像中IOU匹配未成功的目标人物均二次匹配成功,则完成目标跟踪;若第T帧图像和第T
‑
1帧图像中IOU匹配未成功的目标人物二次匹配也未成功,则返回至步骤S2,直到所有目标人物均完成匹配。2.根据权利要求1所述的密集场景中的多目标跟踪方法,其特征在于:所述步骤S1中的对所述第T帧图像进行下采样,得到若干下采样特征图的方法具体为:通过DLA编码器对所述第T帧图像进行下采样,得到若干下采样特征图,其中,所述DLA编码器包括若干根和若干类卷积块,所述根用于将类卷积块之间相互相加,所述类卷积块用于改变图像的通道数。3.根据权利要求2所述的密集场景中的多目标跟踪方法,其特征在于:所述类卷积块包括依次连接的卷积层、第一层归一化、深度可分离卷积层、第二层归一化、第一多层感知机、GeLU激活函数和第二多层感知机,并且所述5卷积层和第二多层感知机进行求和;所述卷积层用于改变特征图的信道数;所述第一层归一化和第二层归一化均用于防止过拟合,增加泛化性;所述深度可分离卷积层用于减少参数数量,模拟自注意力操作;所述第一多层感知机和第二多层感知机均用于弥补深度可分离卷积通道0间没有交互的问题。4.根据权利要求1所述的密集场景中的多目标跟踪方法,其特征在于:所述步骤S2中将所述若干下采样特征图进行上采样和特征融合,得到第一特征图,具体为:将所述若干下采样特征图进行上采样得到若干分辨率不同的上采样特征图,再将若干分辨率不同的上采样特征图进行特征融合,得到第5一特征图。5.根据权利要求1所述的密集场景中的多目标跟踪方法,其特征在于:所述步骤S2中对第T
‑
技术研发人员:徐峰磊,吴奕飞,杨明月,张乐谦,施斐,马益路,胡伏原,
申请(专利权)人:苏州中星拟景信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。