【技术实现步骤摘要】
一种级联检测和匹配的端到端多目标跟踪系统
[0001]本专利技术涉及智能视频监控和智能安保
,特别是涉及一种级联检测和匹配的端到端多目标跟踪系统。
技术介绍
[0002]目前,大多数的多目标跟踪方法是基于检测的,该类方法通常分为两步:第一步为使用目标检测算法将每帧中感兴趣的目标检测出来,假设检测到的目标数量为M,得到对应的位置坐标、分类、置信度;第二步为通过某种匹配方式将第一步中的检测结果与上一帧中的检测目标关联起来,假设上一帧检测目标数量为N。这类基于检测的目标跟踪系统包含三个步骤:特征提取主干网络、多任务学习和目标数据关联。
[0003]目前方法大多存在如下问题:
[0004](1)特征提取网络难以合理融合浅层特征和深层特征。检测任务需要比较明显的表意特征来实现,所以浅层特征更有利于检测,而针对身份识别则需要深层特征来表意目标。这就需要特征提取主干网络能够融合深层特征与浅层特征,来进行多尺度图像表示。
[0005](2)多任务学习难以平衡检测任务和身份识别任务。目前常见的基于检测方式的网络是 ...
【技术保护点】
【技术特征摘要】
1.一种级联检测和匹配的端到端多目标跟踪系统,其特征在于:包括输入模块、特征提取模块、输入预处理模块、目标检测模块以及目标数据关联模块;所述输入模块用于输入图像二元组(I...
f
,I
f+1
),并将该图像二元组以孪生形式输入到特征提取模块;其中,I...
f
为多帧历史帧图像,I
f+1
为后一帧图像;所述特征提取模块采用DLA34网络作为下采样骨干网络,并在每一个下采样节点中加入上采样以实现语义融合,用于提取历史帧图像的特征和后一帧图像的特征,并将该后一帧图像的特征送入目标检测模块;所述输入预处理模块用于将特征提取模块提取的历史帧图像的特征进行融合,并将其送入目标检测模块;所述目标检测模块为基于点的目标检测,用于定位目标位置,最终得到检测三元组(D
i,f
,S
i,f+1
,D
i,f+1
);其中,D
i,f
为历史帧最后一帧第i个目标的真实检测框,S
i,f+1
为以D
i,f
的框中心点为中心,框的高宽向外扩展r倍并映射到后一帧I
f+1
得到的扩展检测框,D
i,f+1
为后一帧图像的第i个目标的真实检测框;所述目标数据关联模块包括匹配模型和经过训练的基于卷积网络的非线性运动预测模型;所述运动预测模型用于进行目标运动预测,根据D
i,f
与S
i,f+1
得到下一帧的目标预测框位置D
′
i,f+1
,所述匹配模型用于将前一帧目标与后一帧目标进行匹配关联,实现目标跟踪;其中,所述运动预测模型的训练是根据D
i,f+1
和D
′
i,f+1
的位置匹配输出的差异性,通过反向传播完成。2.根据权利要求1所述的一种级联检测和匹配的端到端多目标跟踪系统,其特征在于:根据D
i,f
,与S
i,f+1
得到下一帧的目标预测框位置D
′
i,f+1
具体指:令输入为D
i,f
与S
i,f+1
两个目标检测框,其中,D
i,f
为当前帧中第i个目标的真实检测框,S
i,f+1
为以D
i,f
的框中心点为中心,框的高宽向外扩展r倍并映射到后一帧I
f+1
做检测而得到的扩展检测框;两个目标检测框都经过卷积网络提取特征,然后将D
i,f
所提特征作为滤波算子与S
i,f+1
所提特征进行卷积操作得到响应图R
i
;响应图R
i
分别通过两个卷积操作得到一个分数热力图c
i
和一个位置回归图p
i
,所述分数热力图c
i
为目标预测可能位置的置信度,位置回归图p
i
为预测目标的左上角与右下角的偏移量,解码出第i个目标的预测框位置:D
′
i,f+1
=D
e
(p
i
(x
*
,y
*
))=[x
‑
l,y
‑
t,x+r,y+b]其中,p
i
(x
*
,y
*
)代表第i个预测目标相对目标中心的偏移量,p
i
(x
*
,y
*
)=[l,t,r,b],[l,t,r,b]分别代表目标的左上角坐标和右下角坐标的偏移量;表示逐元素相乘,η
i
为惩罚图,用于为每一个候选区域设置一个惩罚得分。3.根据权利要求1所述的一种级联检测和匹配的端到端多目标跟踪系统,其特征在于:所述特征提取模块中,上采样部分的卷积部分使用可变卷积,即卷积之后再经过一个卷积核以学习下一层卷积核的位置偏移量,再将...
【专利技术属性】
技术研发人员:李耶,殷光强,王治国,罗啸宇,贾召钱,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。