一种深度时空关联的视频目标跟踪方法及系统技术方案

技术编号:37442923 阅读:17 留言:0更新日期:2023-05-06 09:14
本申请公开了一种深度时空关联的视频目标跟踪方法及系统,实现逐视频序列的目标跟踪,同时保证获得精确的视频目标跟踪结果。首先设计一个时空特征提取器,提取模板序列和搜索序列的时空特征。其次,引入特征匹配模块,由分类分支和回归分支组成。将抽取的模板时空特征和搜索时空特征通过相关滤波进行相似匹配,分别获得多通道相关滤波特征。然后,部署一个目标跟踪模块,包括分类头和回归头,分别根据输入的多通道相关滤波特征计算分类得分图和回归得分图,用于预测目标位置和估计目标的尺度。最后,通过最小化定义的联合损失优化时空关联视觉跟踪模型。在目标跟踪测试中,提出置信区域估计策略,从而在视频序列中保持鲁棒和准确的目标跟踪。准确的目标跟踪。准确的目标跟踪。

【技术实现步骤摘要】
一种深度时空关联的视频目标跟踪方法及系统


[0001]本专利技术涉及计算机视觉领域,具体而言,涉及一种深度时空关联的视频目标跟踪方法及系统。

技术介绍

[0002]视频目标跟踪是指利用视频或者图像序列的上下文信息,对目标的外观和运动信息进行建模,从而对目标运动状态进行预测并标定位置的技术。通常情况下,根据视频第一帧中指定的目标,在后续视频帧中持续跟踪该特定目标,实现目标的定位和目标尺度估计。视频目标跟踪具有广泛的应用价值,可用于视频监控、无人驾驶、精确制导等领域。
[0003]近年来,随着深度学习和卷积网络的快速发展,出现了越来越多基于卷积网络的视频目标跟踪器。研究者们更加青睐基于孪生网络的跟踪器,其不仅在跟踪速度上占据了优势,而且还取得了不错的精度。这种基于孪生网络的跟踪器把视觉跟踪看作是相似性匹配问题。2016年,Bertinetto等提出用于视觉跟踪的SiamFC跟踪器(Luca Bertinetto,Jack Valmadre,F.Henriques,Andrea Vedaldi,Philip H.S.Torr:Fully

Convolutional Siamese Networks for Object Tracking.ECCV Workshops(2)2016:850

865.),借助孪生网络提取模板和搜索特征,并利用相关滤波计算目标模板和搜索区域之间的互相关程度。随后,Held等提出GOTURN跟踪器(David Held,Sebastian Thrun,Silvio Savarese:Learning to Track at 100FPS with Deep Regression Networks.ECCV(1)2016:749

765.),对上一帧预测的目标框进行回归得到当前帧的目标框。
[0004]为了进一步提高精度,2018年,Li等将孪生网络和区域建议网络结合,提出SiamRPN跟踪器(Bo Li,Junjie Yan,Wei Wu,Zheng Zhu,Xiaolin Hu:High Performance Visual Tracking With Siamese Region Proposal Network.CVPR 2018:8971

8980.),通过引入区域候选网络,更准确地估计目标框尺度。然而,锚框的引入容易导致相似性匹配的二义性,从而影响跟踪精度,造成误差累积,降低目标跟踪器的鲁棒性,并且带来了更多的超参数。2020年,Chen等人设计一个简单而高效的无锚框跟踪器SiamBAN(Zedu Chen,Bineng Zhong,Guorong Li,Shengping Zhang,Rongrong Ji:Siamese Box Adaptive Network for Visual Tracking.CVPR 2020:6667

6676.),通过添加特征组合模块分支和质量评估分支提高跟踪器的性能。这些跟踪器在大部分视频场景中具有比较出色的性能和实时的跟踪速度,但是现有方法往往将视频目标跟踪看作逐视频帧的目标检测问题,忽略了视频帧之间丰富的时空信息。基于孪生网络的视觉跟踪方法应该有效利用跨时间帧的丰富信息,并且可以更好地学习时空观特征进行目标外观建模,以提高跟踪定位的准确度。

技术实现思路

[0005]针对上述现有技术存在的不足,本专利技术提供了一种深度时空关联的视频目标跟踪方法及系统。跟踪器通过利用时空信息,不仅能够保留时空关联的特征信息,且通过利用模板序列存储不同模板帧的特征,能够更好地建模视频目标外观,提高跟踪器的准确性;同
时,以模板序列和搜索序列作为输入,能够得到搜索序列中目标预测结果。这种以逐个序列处理视频目标跟踪的方式,极大地提升了视频目标跟踪的速度。
[0006]为了实现上述目的,本专利技术提供了一种深度时空关联的视频目标跟踪方法,包括以下步骤:
[0007]S1、构建网络架构,该网络由时空特征提取器、特征匹配子网络以及目标预测子网络组成;
[0008]S2、分别给定模板序列视频帧和搜索序列视频帧,并将其裁剪成模板序列块和搜索序列块,作为整个网络架构的输入;
[0009]S3、构建时空特征提取器,该子网络是一个3D孪生全卷积网络,包括模板分支和搜索分支,以3D全卷积网络作为基础网络且权值共享。将模板序列块和搜索序列块作为输入,时空特征提取器从其中提取模板时空特征和搜索时空特征;
[0010]S4、构建特征匹配子网络,包括分类分支和回归分支。将得到的模板时空特征和搜索时空特征作为这两个分支的输入,利用相关滤波操作进行特征相似度匹配,使得分类分支和回归分支分别输出多通道相关滤波特征;
[0011]S5、构建目标预测子网络,主要由分类头和回归头组成。将分类分支和回归分支输出的多通道相关滤波特征输入到对应的分类头和回归头,得到分类得分图和回归得分图;
[0012]S6、根据分类得分图定位序列中每一视频帧目标的位置;根据回归得分图,对序列中每一视频帧的目标尺度进行估计,得到搜索序列中每一视频帧的目标预测框;
[0013]S7、通过最小化联合损失优化网络模型,包括分类的交叉熵损失和回归的交并比损失,最终得到视频目标跟踪器模型;
[0014]S8、以训练的网络模型为视觉跟踪器,对给定的视频进行逐视频序列的目标跟踪。为了保证稳定和准确的跟踪,定义置信搜索区域估计策略,根据当前视频序列中不同的目标状态裁剪下一个序列的搜索区域,减少误差累积,准确地定位搜索序列中每一视频帧的目标。
[0015]本专利技术提供了一种用于视频目标跟踪的端到端可训练的神经网络架构和系统,包括视频序列输入模块,用于裁剪模板序列块和和搜索序列块;模型训练模块,用于训练一种基于3D孪生网络的视频目标跟踪器,通过最小化组合损失对目标跟踪进行训练,包括交叉熵和交并比损失,最终实现逐视频序列的目标跟踪;视频目标跟踪模块,利用模型输出的分类图和回归图,分别进行搜索序列视频帧中目标状态的估计和尺度的预测,计算得到搜索序列中的目标预测框;利用当前视频序列的目标预测框,计算得到下一组视频序列的置信搜索区域,并将其输入到搜索分支以进行后续视频序列的目标跟踪。
[0016]与现有技术相比,具备以下有益效果:
[0017]本专利技术利用3D孪生全卷积网络提取模板时空特征和搜索时空特征,学习跨连续多个视频帧之间丰富的时空信息。将抽取的模板时空特征和搜索时空特征输入到特征匹配子网络,得到多通道相关滤波特征。利用分类头和回归头处理多通道相关滤波特征,预测目标的定位并估计目标尺度。在目标跟踪阶段,为了得到较为准确的搜索序列区域,定义置信搜索区域估计策略,根据当前视频序列中目标的不同状态对下一搜索序列区域进行估计,确保目标跟踪的稳定性和准确性。本方法不再是传统的单帧处理,而是直接处理视频序列,保证跟踪精度的同时提高了跟踪速度。
附图说明
[0018本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种深度时空关联的视频目标跟踪方法,其特征在于,所述方法由计算机执行,包括以下步骤:S1、构建网络架构,该网络由时空特征提取器、特征匹配子网络以及目标预测子网络组成;S2、分别给定模板序列视频帧和搜索序列视频帧,并将其裁剪成模板序列块和搜索序列块,作为整个网络架构的输入;S3、构建时空特征提取器,该子网络是一个3D孪生全卷积网络,包括模板分支和搜索分支,以3D全卷积网络作为基础网络且权值共享;将模板序列块和搜索序列块作为输入,时空特征提取器从其中提取模板时空特征和搜索时空特征;S4、构建特征匹配子网络,包括分类分支和回归分支;将得到的模板时空特征和搜索时空特征作为这两个分支的输入,利用相关滤波操作进行特征相似度匹配,使得分类分支和回归分支分别输出多通道相关滤波特征;S5、构建目标预测子网络,主要由分类头和回归头组成;将分类分支和回归分支输出的多通道相关滤波特征输入到对应的分类头和回归头,得到分类得分图和回归得分图;S6、根据分类得分图定位序列中每一视频帧目标的位置;根据回归得分图,对序列中每一视频帧的目标尺度进行估计,得到搜索序列中每一视频帧的目标预测框;S7、通过最小化联合损失优化网络模型,包括分类的交叉熵损失和回归的交并比损失,最终得到视频目标跟踪器模型;S8、以训练的网络模型为视觉跟踪器,对给定的视频进行逐视频序列的目标跟踪;为了保证稳定和准确的跟踪,定义置信搜索区域估计策略,根据当前视频序列中不同的目标状态裁剪下一个序列的搜索区域,减少误差累积,准确地定位搜索序列中每一视频帧的目标。2.如权利要求1所述的一种深度时空关联的视频目标跟踪方法,其特征在于构建深度时空关联的视频目标跟踪网络结构,其具体实现过程如下:S11、构建一个基于3D孪生网络的时空特征提取器,包括模板分支和搜索分支,以3D全卷积神经网络作为基础网络且权值共享,用于从输入的视频序列块中提取模板时空特征和搜索时空特征;S12、特征匹配子网络由分类分支和回归分支组成,分别以模板时空特征和搜索时空特征作为输入,利用相关滤波操作进行特征相似性匹配,获得多通道相关滤波特征;S13、目标预测子网络包括分类头和回归头,以多通道相关滤波特征作为输入,通过分类头和回归头,分别得到分类得分图和回归得分图。3.如权利要求1所述的一种深度时空关联的视频目标跟踪方法,其特征在于构建模板序列块和搜索序列块,其具体实现过程如下:S21、给定模板序列,根据模板序列中每一视频帧中目标的真实值信息,获取目标的中心位置和宽度、高度信息,并表示为(x,y,w,h);S211、根据S21给定的每一真实目标框信息,计算目标框宽和高的扩充值p=(w+h)/2,并计算缩放因子用于缩放扩充后的目标框区域;如果加上扩充值后的目标框区域超出了视频帧的边界值,则使用当前视频帧的平均RGB值进行填充;最终,模板序列中的每一视频帧剪裁为127
×
127大小的模板块;
S212、对模板序列中每一视频帧裁剪之后得到模板块其中k表示模板序列中视频帧的总数目;S22、给定搜索序列,根据模板序列中第一帧视频帧目标的真实值信息,获取目标的中心位置和宽度、高度信息,并表示为(X,Y,W,H);S221、根据S22给定的真实目标框信息,计算目标框宽和高的扩充值P=(W+H)/2,并计算缩放因子来用于缩放扩充后的目标框区域;如果加上扩充值后的目标框区域超出了视频帧的边界值,则使用当前视频帧的平均RGB值来填充,最终,搜索序列中每一视频帧裁剪为255
×
255大小的搜索块;S222、对搜索序列中每一视频帧裁剪之后得到搜索块其中k表示搜索序列中视频帧的总数目。4.如权利要求1所述的一种深度时空关联的视频目标跟踪方法,其特征在于构建时空特征提取器,其具体实现过程如下:S31、构建特征提取网络,其中每一分支是一个由五个残差块组成的Res3D网络;S32、将Res3D的第一块残差块中的padding属性修改为1
×4×
4,stride调整为1
×1×
1,分别将第四块残差块输出通道和第五块的输入通道修改为128,去掉第五块残差块的下采样和最终分类层;由此,输出的时空特征和输入的视频序列具有相同的时间长度;S33、将S212和S222中得到的模板块和搜索块输入到时空特征提取器中,分别得到模板时空特征和搜索时空特征5.如权利要求1所述的一种深度时空关联的视频目标跟踪方法,其特征在于构建特征匹配子网络,其具体实现过程如下:S41、将S3中得到的模板特征和搜索特征分别输入到分类分支和回归分支中并进行相关滤波操作,具体计算如下:回归分支中并进行相关滤波操作,具体计算如下...

【专利技术属性】
技术研发人员:梁敏桂彦刘斌斌
申请(专利权)人:长沙理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1