【技术实现步骤摘要】
一种深度时空关联的视频目标跟踪方法及系统
[0001]本专利技术涉及计算机视觉领域,具体而言,涉及一种深度时空关联的视频目标跟踪方法及系统。
技术介绍
[0002]视频目标跟踪是指利用视频或者图像序列的上下文信息,对目标的外观和运动信息进行建模,从而对目标运动状态进行预测并标定位置的技术。通常情况下,根据视频第一帧中指定的目标,在后续视频帧中持续跟踪该特定目标,实现目标的定位和目标尺度估计。视频目标跟踪具有广泛的应用价值,可用于视频监控、无人驾驶、精确制导等领域。
[0003]近年来,随着深度学习和卷积网络的快速发展,出现了越来越多基于卷积网络的视频目标跟踪器。研究者们更加青睐基于孪生网络的跟踪器,其不仅在跟踪速度上占据了优势,而且还取得了不错的精度。这种基于孪生网络的跟踪器把视觉跟踪看作是相似性匹配问题。2016年,Bertinetto等提出用于视觉跟踪的SiamFC跟踪器(Luca Bertinetto,Jack Valmadre,F.Henriques,Andrea Vedaldi,Philip H.S.Torr:Fully
‑
Convolutional Siamese Networks for Object Tracking.ECCV Workshops(2)2016:850
‑
865.),借助孪生网络提取模板和搜索特征,并利用相关滤波计算目标模板和搜索区域之间的互相关程度。随后,Held等提出GOTURN跟踪器(David Held,Sebastian Thrun ...
【技术保护点】
【技术特征摘要】
1.一种深度时空关联的视频目标跟踪方法,其特征在于,所述方法由计算机执行,包括以下步骤:S1、构建网络架构,该网络由时空特征提取器、特征匹配子网络以及目标预测子网络组成;S2、分别给定模板序列视频帧和搜索序列视频帧,并将其裁剪成模板序列块和搜索序列块,作为整个网络架构的输入;S3、构建时空特征提取器,该子网络是一个3D孪生全卷积网络,包括模板分支和搜索分支,以3D全卷积网络作为基础网络且权值共享;将模板序列块和搜索序列块作为输入,时空特征提取器从其中提取模板时空特征和搜索时空特征;S4、构建特征匹配子网络,包括分类分支和回归分支;将得到的模板时空特征和搜索时空特征作为这两个分支的输入,利用相关滤波操作进行特征相似度匹配,使得分类分支和回归分支分别输出多通道相关滤波特征;S5、构建目标预测子网络,主要由分类头和回归头组成;将分类分支和回归分支输出的多通道相关滤波特征输入到对应的分类头和回归头,得到分类得分图和回归得分图;S6、根据分类得分图定位序列中每一视频帧目标的位置;根据回归得分图,对序列中每一视频帧的目标尺度进行估计,得到搜索序列中每一视频帧的目标预测框;S7、通过最小化联合损失优化网络模型,包括分类的交叉熵损失和回归的交并比损失,最终得到视频目标跟踪器模型;S8、以训练的网络模型为视觉跟踪器,对给定的视频进行逐视频序列的目标跟踪;为了保证稳定和准确的跟踪,定义置信搜索区域估计策略,根据当前视频序列中不同的目标状态裁剪下一个序列的搜索区域,减少误差累积,准确地定位搜索序列中每一视频帧的目标。2.如权利要求1所述的一种深度时空关联的视频目标跟踪方法,其特征在于构建深度时空关联的视频目标跟踪网络结构,其具体实现过程如下:S11、构建一个基于3D孪生网络的时空特征提取器,包括模板分支和搜索分支,以3D全卷积神经网络作为基础网络且权值共享,用于从输入的视频序列块中提取模板时空特征和搜索时空特征;S12、特征匹配子网络由分类分支和回归分支组成,分别以模板时空特征和搜索时空特征作为输入,利用相关滤波操作进行特征相似性匹配,获得多通道相关滤波特征;S13、目标预测子网络包括分类头和回归头,以多通道相关滤波特征作为输入,通过分类头和回归头,分别得到分类得分图和回归得分图。3.如权利要求1所述的一种深度时空关联的视频目标跟踪方法,其特征在于构建模板序列块和搜索序列块,其具体实现过程如下:S21、给定模板序列,根据模板序列中每一视频帧中目标的真实值信息,获取目标的中心位置和宽度、高度信息,并表示为(x,y,w,h);S211、根据S21给定的每一真实目标框信息,计算目标框宽和高的扩充值p=(w+h)/2,并计算缩放因子用于缩放扩充后的目标框区域;如果加上扩充值后的目标框区域超出了视频帧的边界值,则使用当前视频帧的平均RGB值进行填充;最终,模板序列中的每一视频帧剪裁为127
×
127大小的模板块;
S212、对模板序列中每一视频帧裁剪之后得到模板块其中k表示模板序列中视频帧的总数目;S22、给定搜索序列,根据模板序列中第一帧视频帧目标的真实值信息,获取目标的中心位置和宽度、高度信息,并表示为(X,Y,W,H);S221、根据S22给定的真实目标框信息,计算目标框宽和高的扩充值P=(W+H)/2,并计算缩放因子来用于缩放扩充后的目标框区域;如果加上扩充值后的目标框区域超出了视频帧的边界值,则使用当前视频帧的平均RGB值来填充,最终,搜索序列中每一视频帧裁剪为255
×
255大小的搜索块;S222、对搜索序列中每一视频帧裁剪之后得到搜索块其中k表示搜索序列中视频帧的总数目。4.如权利要求1所述的一种深度时空关联的视频目标跟踪方法,其特征在于构建时空特征提取器,其具体实现过程如下:S31、构建特征提取网络,其中每一分支是一个由五个残差块组成的Res3D网络;S32、将Res3D的第一块残差块中的padding属性修改为1
×4×
4,stride调整为1
×1×
1,分别将第四块残差块输出通道和第五块的输入通道修改为128,去掉第五块残差块的下采样和最终分类层;由此,输出的时空特征和输入的视频序列具有相同的时间长度;S33、将S212和S222中得到的模板块和搜索块输入到时空特征提取器中,分别得到模板时空特征和搜索时空特征5.如权利要求1所述的一种深度时空关联的视频目标跟踪方法,其特征在于构建特征匹配子网络,其具体实现过程如下:S41、将S3中得到的模板特征和搜索特征分别输入到分类分支和回归分支中并进行相关滤波操作,具体计算如下:回归分支中并进行相关滤波操作,具体计算如下...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。