面向拥挤场景的多目标检测跟踪方法、系统及存储介质技术方案

技术编号:38211369 阅读:24 留言:0更新日期:2023-07-21 17:03
本发明专利技术提供了一种面向拥挤场景的多目标检测跟踪方法、系统及存储介质,多目标检测跟踪方法包括如下步骤:步骤1:将视频帧序列输入目标检测器,获得逐帧检测结果,逐帧检测结果包括检测框和偏移,检测框包括初始身体框和头部框,利用头部框和偏移对初始身体框进行补充得到身体框;步骤2:将所有身体框输入运动特征提取模块,获得所有行人的运动特征;将所有身体框和头部框输入外观特征提取模块,获得所有身体框和头部框的外观特征向量,并将来自同一行人的头部外观特征向量和身体外观特征向量进行拼接得到行人的外观特征。本发明专利技术的有益效果是:本发明专利技术提高了检测精度,提高了拥挤场景中移动目标运动估计的准确性。中移动目标运动估计的准确性。中移动目标运动估计的准确性。

【技术实现步骤摘要】
面向拥挤场景的多目标检测跟踪方法、系统及存储介质


[0001]本专利技术涉及计算机视觉
,尤其涉及面向拥挤场景的多目标检测跟踪方法、系统及存储介质。

技术介绍

[0002]多目标跟踪一直是计算机视觉中的长期目标,目标是估计视频中呈现的感兴趣对象的轨迹,其应用包括视频监控、智能视频分析、人类活动识别、智能交通、自动驾驶、无人机航拍等领域。例如,在视频监控中,多目标跟踪技术可以帮助安保人员实时追踪并监控多个可疑目标;在自动驾驶领域,多目标跟踪技术可以实现对周围车辆、行人等交通元素的实时感知和预测,以保证自动驾驶汽车的安全性和稳定性。
[0003]目前的多目标跟踪方法分为两大类:基于检测进行跟踪的两阶段方法与联合检测和跟踪的一阶段方法。其中,基于检测进行跟踪的两阶段方法即首先通过目标检测算法对当前帧中目标进行检测,再将检测结果输入ReID网络提取外观特征,充分利用了目标检测算法的检测精度以及ReID网络的外观特征提取能力,缺点是不能共享网络参数导致的计算量过大,尤其在拥挤场景中,难以完成实时跟踪的任务;联合检测和跟踪的一阶段方法即通过单一网络同时完成目标检测和外观特征提取,计算量较小,在拥挤场景中能够实现实时跟踪,缺点是难以对目标物体选用表现更好的ReID网络,且存在检测和跟踪任务在训练过程中的冲突。
[0004]在拥挤场景中,遮挡情况大量存在,现有两类方法因只检测身体框,在拥挤场景中极易出现漏检或位置不准确的情况,故检测效果不佳。
[0005]在提取运动特征过程中,现有方法构建的运动模型仅线性近似个体运动,忽略了拥挤场景中小范围群体行为的相似性,导致运动估计不准确。
[0006]在提取外观特征过程中,现有一阶段方法仅对单帧检测结果进行简单分类,难以利用历史信息;现有两阶段方法使用单独网络训练ReID分支,比较耗时,且现有两类方法在拥挤场景中提取得到的外观特征(ReID)包含太多干扰信息,不利于目标长时跟踪,一些研究工作提出了基于历史帧动态更新外观特征中心向量,一定程度上提高了外观特征的鲁棒性,但是对于如何有效的提取外观特征向量并没有给出有效的解决方案,导致外观模型的关联能力受限。
[0007]同时,目前的ReID模型或分支均是基于已有的标注数据进行训练,对于新的场景或数据,难以进行自动域适应,对目标长时跟踪任务产生不利影响。

技术实现思路

[0008]本专利技术提供了一种面向拥挤场景的多目标检测跟踪方法,包括如下步骤:步骤1:将视频帧序列输入目标检测器,获得逐帧检测结果,逐帧检测结果包括检测框和偏移,检测框包括初始身体框和头部框,利用头部框和偏移对初始身体框进行补充得到身体框;
步骤2:将所有身体框输入运动特征提取模块,获得所有行人的运动特征;将所有身体框和头部框输入外观特征提取模块,获得所有身体框和头部框的外观特征向量,并将来自同一行人的头部外观特征向量和身体外观特征向量进行拼接得到行人的外观特征;步骤3:根据运动特征及外观特征,在当前帧检测与存活轨迹间构建代价矩阵,利用匈牙利匹配器将当前帧行人检测与上一帧存活轨迹进行连接,从而更新多目标移动跟踪结果。
[0009]本专利技术还提供了一种面向拥挤场景的多目标检测跟踪系统,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现本专利技术所述多目标检测跟踪方法的步骤。
[0010]本专利技术还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本专利技术所述的多目标检测跟踪方法的步骤。
[0011]本专利技术的有益效果是:1.本专利技术利用身体

头部

偏移量(头部到身体的二维位置坐标差)联合检测的算法,通过头部检测与偏移量预测得到的身体框,对直接预测的身体框进行补充操作,有效解决了由于遮挡或模糊造成的漏检问题,提高了检测精度。2.本专利技术通过基于群体行为约束的目标运动估计模型,解决了传统运动估计模型仅单一考虑个体行为,忽略群体关联的问题,提高了拥挤场景中移动目标运动估计的准确性。3.本专利技术利用基于头部——身体联合外观向量的时序外观特征(ReID)模型,通过提取头部的外观特征对身体的外观特征进行补充,并对每一轨迹历史帧的外观特征向量进行时序建模,解决了由于遮挡或背景信息干扰造成的长期关联鲁棒性差的问题。4.本专利技术利用基于K

means聚类算法的ReID网络自动域适应算法,采用在线学习策略在推理阶段动态调整模型参数,解决传统ReID模型对于新的场景或数据难以进行自动域适应,对目标长时跟踪任务产生不利影响的问题。
附图说明
[0012]图1是本专利技术的流程图;图2是本专利技术的整体网络结构示意图;图3是群体行为约束运动估计模型示意图;图4是历史轨迹信息库功能示意图。
具体实施方式
[0013]如图1所示,本专利技术公开了一种面向拥挤场景的多目标检测跟踪方法,包括如下步骤:步骤1:将视频帧序列输入目标检测器,获得逐帧检测结果,逐帧检测结果包括检测框和偏移,检测框包括初始身体框和头部框;利用头部框和偏移对初始身体框进行补充得到身体框,避免因遮挡或模糊造成的漏检问题。
[0014]步骤2:将所有身体框输入运动特征提取模块,获得所有行人的运动特征;将所有身体框和头部框输入外观特征提取模块,获得所有身体框和头部框的外观特征向量,并将来自同一行人的头部外观特征向量和身体外观特征向量进行拼接得到行人的外观特征。
[0015]步骤3:根据运动特征及外观特征,在当前帧检测与存活轨迹间构建代价矩阵,利用匈牙利匹配器将当前帧行人检测与上一帧存活轨迹进行连接,从而更新多目标移动跟踪结果。
[0016]所述目标检测器由YoloX作为backbone,YoloX是实时目标检测网络,backbone是骨干网络,YoloX输出有两个分支,分别为目标检测分支模块和二维偏移分支模块,目标检测分支模块包括regress分支、object分支和class分支,loss(损失)如下:regress分支:,表示交并比损失,网络对特定行人的预测框与该行人的身体框(数据集标签)的IOU损失。表示交并比,也就是网络对特定行人的预测框与该行人的身体框的交集/它们的并集。A表示预测框,B表示身体框。
[0017]object分支:;class 分支:。
[0018]Bcewithlogits是二元交叉熵损失,是用于二元分类的损失函数;y是目标的标签,取值为0,1;p是预测的相应类别的概率,范围是0到1,且两类的概率和为1。在object分支中,0代表背景、1代表前景;在class分支中,0代表身体,1代表头部。
[0019]二维偏移分支模块采用SmoothL1损失:用于预测偏移量与真实偏移量的损失函数;X是预测值和真实值之间的差异,用于预测的x,y方向上的差值与真实的差值之间的差;Otherwise表示否则,即不满足x绝对值<1这个条件时。
[0020]总损失为:,其中,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向拥挤场景的多目标检测跟踪方法,其特征在于,包括如下步骤:步骤1:将视频帧序列输入目标检测器,获得逐帧检测结果,逐帧检测结果包括检测框和偏移,检测框包括初始身体框和头部框,利用头部框和偏移对初始身体框进行补充得到身体框;步骤2:将所有身体框输入运动特征提取模块,获得所有行人的运动特征;将所有身体框和头部框输入外观特征提取模块,获得所有身体框和头部框的外观特征向量,并将来自同一行人的头部外观特征向量和身体外观特征向量进行拼接得到行人的外观特征;步骤3:根据运动特征及外观特征,在当前帧检测与存活轨迹间构建代价矩阵,利用匈牙利匹配器将当前帧行人检测与上一帧存活轨迹进行连接,从而更新多目标移动跟踪结果。2.根据权利要求1所述的多目标检测跟踪方法,其特征在于:所述目标检测器由YoloX作为backbone,YoloX是实时目标检测网络,backbone是骨干网络,YoloX输出有两个分支,分别为目标检测分支模块和二维偏移分支模块,目标检测分支模块包括regress分支、object分支和class分支,regress表示回归,object表示物体,class表示类别,loss如下:regress分支:,表示交并比损失,表示交并比,A表示预测框,B表示身体框;object分支:;class 分支:;Bcewithlogits是二元交叉熵损失,是用于二元分类的损失函数;y是目标的标签,取值为0,1;p是预测的相应类别的概率,范围是0到1,且两类的概率和为1;在object分支中,0代表背景、1代表前景;在class分支中,0代表身体,1代表头部;二维偏移分支模块采用SmoothL1损失:;SmoothL1(X)用于预测偏移量与真实偏移量的损失函数;X是预测值和真实值之间的差异,用于预测的x,y方向上的差值与真实的差值之间的差;Otherwise表示否则,即不满足x绝对值<1这个条件时;总损失为:,其中,均为超参数,L
regress
表示regress分支的损失,L
object
表示object分支的损失,L
class
表示class分支的损失,L
offset
表示二维偏移分支的损失,L
offset
是头部中心到身体中心的二维坐标偏移量。3.根据权利要求2所述的多目标检测跟踪方法,其特征在于:的取值为5.0,的取值为1.0,的取值为1.0,的取值为1.0。4.根据权利要求1所述的多目标检测跟踪方法,其特征在于:在所述步骤1中,对目标检测器输出的初始身体框进行补框处理,将头部框与对应的偏移相加,得到此
途径获得的补充身体框,将补充身体框与直接预测获得的初始身体框相加,并通过IOU去除中与重叠较大的部分,获得身体框,IOU表示交并比,t表示当前第t帧图片。5.根据权利要求1所述的多目标检测跟踪方法,其特征在于:所述运动特征提取模块包括群体行为约束运动估计模型,在所述步骤2中,所述群体行为约束运动估计模型定义八维状态空间,依次表示为身体框的横坐标、纵坐标、宽高比、高度以及它们在图像平面中的相应速度,身体框位置S为;定义选中区域为选中目标中心为圆心,2b为半径的区域,其中第i个目标在当前帧的速度表示为,S
t
表示身体框在第t帧的位置,S
t
‑1表示身体框在上一帧的位置,选中目标在第t+1帧处的运动预测过程表示如下:,表示第i个目标在第t

1帧的速度...

【专利技术属性】
技术研发人员:任卫红许兴隆刘洪海姜渭博高宇董潜
申请(专利权)人:哈尔滨工业大学深圳哈尔滨工业大学深圳科技创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1