一种跨视频目标跟踪方法、系统、电子设备以及存储介质技术方案

技术编号:34398864 阅读:13 留言:0更新日期:2022-08-03 21:36
本申请涉及一种跨视频目标跟踪方法、系统、电子设备以及存储介质。方法包括:确定待跟踪的视频图像以及初始目标模板图像;将视频图像以及初始目标模板图像输入训练好的深度孪生网络跟踪模型,通过深度孪生网络跟踪模型输出跟踪目标在视频图像中的目标预测图像;利用训练好的地理映射模型将视频图像映射到统一地理坐标空间中,得到视频图像的全局地理坐标;基于映射后的视频图像,通过多边形裁剪法计算两两视频图像之间的重叠区域,并判定重叠区域中是否存在目标预测图像,在存在目标预测图像的重叠区域对应的视频图像中利用跟踪目标交接算法进行跨视频目标跟踪。本申请可以长时间持续稳定的跟踪目标,保证了跟踪的实时性,且跟踪精度较高。且跟踪精度较高。且跟踪精度较高。

【技术实现步骤摘要】
一种跨视频目标跟踪方法、系统、电子设备以及存储介质


[0001]本申请属于视觉跟踪目标跟踪
,特别涉及一种跨视频目标跟踪方法、系统、电子设备以及存储介质。

技术介绍

[0002]随着科技的发展,人们的生活品质不断提高,对安全的需求也越来越迫切。视频安防监控行业迅速发展,各类应用也提出了不同的监控技术需求,视频安防监控由数字化、网格化逐步走向智能化。智能监控系统常用于社会安防场所、大型娱乐场所以及各种道路交通场所,在智能监控系统中,视觉跟踪目标跟踪是一项基本需求,也是如姿态识别、行为分析等后续高级视觉处理的基础任务,例如,可以通过自动化监测对政府机构或银行等重要区域进行监控,对可疑行为进行识别,在检测到异常行为时进行警告;也可以对车辆进行实时跟踪与分析,使用交通数据实现智能化的交通管理。视觉跟踪目标跟踪要解决的问题可以表述为:在视频序列中,给出第一帧中跟踪目标的位置及大小,需要在后续视频帧中预测跟踪目标的位置及大小。根据跟踪目标的数量,视觉跟踪目标跟踪技术可以分为多跟踪目标跟踪和单跟踪目标跟踪。视觉跟踪目标跟踪在实际生活中有广泛的应用,例如人机交互(Human

Computer Interaction)和无人驾驶(Autonomous Driving)等。
[0003]目前,智能监控系统能够在不依赖人的情况下,在单摄像头视角下通过视觉跟踪模型实现自动跟踪目标。现阶段的智能监控系统跟踪方法研究中,大多数是针对多视角协同的视频监控范围内不存在重叠视域范围的运动跟踪目标跟踪方法进行研究,如基于跟踪目标重识别算法的跟踪。但是在多摄像头协同跨视频跟踪的场景中,由于多视频切换导致的场景变换,会产生如尺度变化、外观变化、光照变化、遮挡和跟踪目标消失等问题,导致跟踪目标跟踪不稳定,难以实现跨视频跟踪。其次,跨视频的跟踪目标跟踪持续时间较长,相对于短时间跟踪目标更易产生尺度和外观上的变化,跟踪模型会因为跟踪误差的积累而产生跟踪漂移,导致跟踪失败。另外,跨视频跟踪涉及到多视频的联合分析,对于跟踪算法的实时推理速度要求比较高,不能直接应用复杂的跟踪算法模型。因此,如何优化改进目标跟踪模型,解决跨视频跟踪场景下存在的多种问题,实现重叠视域下跨视频范围内的同一跟踪目标实时连续跟踪,是智能监控系统中亟待解决的难题之一,具有重要的理论意义和应用意义。

技术实现思路

[0004]本申请提供了一种跨视频目标跟踪方法、系统、电子设备以及存储介质,旨在至少在一定程度上解决现有技术中的上述技术问题之一。
[0005]为了解决上述问题,本申请提供了如下技术方案:
[0006]一种跨视频目标跟踪方法,包括:
[0007]确定待跟踪的视频图像以及初始目标模板图像;
[0008]将所述视频图像以及初始目标模板图像输入训练好的深度孪生网络跟踪模型,通
过所述深度孪生网络跟踪模型输出跟踪目标在所述视频图像中的目标预测图像;
[0009]利用训练好的地理映射模型将所述视频图像映射到统一地理坐标空间中,得到所述视频图像的全局地理坐标;
[0010]基于映射后的视频图像,通过多边形裁剪法计算两两视频图像之间的重叠区域,并判定所述重叠区域中是否存在目标预测图像,在存在所述目标预测图像的重叠区域对应的视频图像中利用跟踪目标交接算法进行跨视频目标跟踪。
[0011]本申请实施例采取的技术方案还包括:所述深度孪生网络跟踪模型包括骨架网络、自注意力网络、目标估计网络和动态模板网络,
[0012]所述骨架网络的输入为目标模板图像和目标搜索图像,所述骨架网络利用深度可分离卷积模块、多路复用卷积模块和倒置残差模块输出所述目标模板图像和目标搜索图像的一维特征图;
[0013]所述自注意力网络采用编码器

解码器架构,其输入为所述骨架网络的输出,输出为一张二维特征图;
[0014]所述目标估计网络包括偏置回归头、尺度预测头和目标分类头三个网络头,其输入为所述自注意力网络的输出,所述三个网络头的输出分别为偏置回归图、尺度预测图和目标分类图,根据偏置回归图、尺度预测图和目标分类图得到跟踪目标在所述目标搜索图像中的位置,输出目标预测图像;
[0015]所述动态模板网络包括三层前馈神经网络,其输入为所述自注意力网络的输出,输出为一个布尔值,代表是否更新所述目标模板图像。
[0016]本申请实施例采取的技术方案还包括:所述骨架网络利用深度可分离卷积模块、多路复用卷积模块和倒置残差模块输出所述目标模板图像和目标搜索图像的一维特征图具体为:
[0017]令所述目标模板图像和目标搜索图像通过一个共享的卷积核Conv_1,分别得到目标模板图像和目标搜索图像的特征图T1,S1;
[0018]配置三个深度可分离卷积层DwConv_1、DwConv_2和DwConv_3,每一个深度可分离卷积层包括逐通道卷积和逐点卷积;DwConv_1、DwConv_2和DwConv_3的输入为特征图T1,S1,DwConv_1和DwConv_2输出的特征图与T1,S1尺寸相同,DwConv_3输出最终的第一特征图T2,S2,所述T2,S2的尺寸分别为T1,S1的一半;
[0019]将所述第一特征图输入多路复用卷积模块,所述多路复用卷积模块包括三层卷积层,每一层卷积层分别包括三个倒置残差模块以及两个多路复用模块,所述多路复用卷积模块的输入为第一特征图T2,S2,其输出为第二特征图T3,S3。
[0020]本申请实施例采取的技术方案还包括:所述自注意力网络包括编码器和解码器,所述编码器包括第一多头自注意力模块、第一前馈网络以及第一残差归一化模块,所述编码器的输入为目标模板图像的特征图Z∈R
h
×
w
×
d
,其中h和w分别为特征图Z的宽和高,d为通道数量,将Z的空间维数压缩至一维,变成一个序列Z0∈R
hw
×
d

[0021]所述解码器包括第二前馈网络、第二残差归一化模块、第二多头自注意力模块和多头交叉注意力模块,所述解码器的输入为目标搜索图像的特征图X∈R
H
×
W
×
d
,其中H和W分别为特征图X的宽和高,且H>h,W>w,所述解码器将特征图X压缩成一维的序列X0∈R
HW
×
d

[0022]本申请实施例采取的技术方案还包括:所述目标估计网络包括偏置回归头、尺度
预测头和目标分类头,所述偏置回归头、尺度预测头和目标分类头分别连接自注意力网络的输出,且所述偏置回归头、尺度预测头和目标分类头分别包含三个1x1卷积层和一个Sigmoid函数,所述偏置回归头和尺度预测头分别用于目标框回归和尺度回归,输出分别为偏置回归图和尺度预测图,所述目标分类头用于目标分类,其输出为目标分类图,所述目标分类图的值代表跟踪目标在低分辨率离散化情况下的出现概率。...

【技术保护点】

【技术特征摘要】
1.一种跨视频目标跟踪方法,其特征在于,包括:确定待跟踪的视频图像以及初始目标模板图像;将所述视频图像以及初始目标模板图像输入训练好的深度孪生网络跟踪模型,通过所述深度孪生网络跟踪模型输出跟踪目标在所述视频图像中的目标预测图像;利用训练好的地理映射模型将所述视频图像映射到统一地理坐标空间中,得到所述视频图像的全局地理坐标;基于映射后的视频图像,通过多边形裁剪法计算两两视频图像之间的重叠区域,并判定所述重叠区域中是否存在目标预测图像,在存在所述目标预测图像的重叠区域对应的视频图像中利用跟踪目标交接算法进行跨视频目标跟踪。2.根据权利要求1所述的跨视频目标跟踪方法,其特征在于,所述深度孪生网络跟踪模型包括骨架网络、自注意力网络、目标估计网络和动态模板网络,所述骨架网络的输入为目标模板图像和目标搜索图像,所述骨架网络利用深度可分离卷积模块、多路复用卷积模块和倒置残差模块输出所述目标模板图像和目标搜索图像的一维特征图;所述自注意力网络采用编码器

解码器架构,其输入为所述骨架网络的输出,输出为一张二维特征图;所述目标估计网络包括偏置回归头、尺度预测头和目标分类头三个网络头,其输入为所述自注意力网络的输出,所述三个网络头的输出分别为偏置回归图、尺度预测图和目标分类图,根据偏置回归图、尺度预测图和目标分类图得到跟踪目标在所述目标搜索图像中的位置,输出目标预测图像;所述动态模板网络包括三层前馈神经网络,其输入为所述自注意力网络的输出,输出为一个布尔值,代表是否更新所述目标模板图像。3.根据权利要求2所述的跨视频目标跟踪方法,其特征在于,所述骨架网络利用深度可分离卷积模块、多路复用卷积模块和倒置残差模块输出所述目标模板图像和目标搜索图像的一维特征图具体为:令所述目标模板图像和目标搜索图像通过一个共享的卷积核Conv_1,分别得到目标模板图像和目标搜索图像的特征图T1,S1;配置三个深度可分离卷积层DwConv_1、DwConv_2和DwConv_3,每一个深度可分离卷积层包括逐通道卷积和逐点卷积;DwConv_1、DwConv_2和DwConv_3的输入为特征图T1,S1,DwConv_1和DwConv_2输出的特征图与T1,S1尺寸相同,DwConv_3输出最终的第一特征图T2,S2,所述T2,S2的尺寸分别为T1,S1的一半;将所述第一特征图输入多路复用卷积模块,所述多路复用卷积模块包括三层卷积层,每一层卷积层分别包括三个倒置残差模块以及两个多路复用模块,所述多路复用卷积模块的输入为第一特征图T2,S2,其输出为第二特征图T3,S3。4.根据权利要求3所述的跨视频目标跟踪方法,其特征在于,所述自注意力网络包括编码器和解码器,所述编码器包括第一多头自注意力模块、第一前馈网络以及第一残差归一化模块,所述编码器的输入为目标模板图像的特征图Z∈R
h
×
w
×
d
,其中h和w分别为特征图Z的宽和高,d为通道数量,将Z的空间维数压缩至一维,变成一个序列Z0∈R
hw
×
d
;所述解码器包括第二前馈网络、第二残差归一化模块、第二多头自注意力模块和多头
交叉注意力模块,所述解码器的输入为目标搜索图像的特征图X∈R
H
×
W
×
d
,其中H和W分别为特征图X的宽和高,且H>h,W>w,所述解码器将特征图X压缩成一维的序列X0∈R
HW
×
d
。5.根据权利要求4所述的跨视频目标跟踪方法,其特征在于,所述目标估计网络包括偏置回归头、尺度预测头和目标分类头...

【专利技术属性】
技术研发人员:胡金星李东昊尚佩晗贾亚伟何兵
申请(专利权)人:深圳先进技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1