【技术实现步骤摘要】
一种基于3D孪生卷积网络的高性能视频跟踪方法及系统
[0001]本专利技术涉及计算机视觉领域,具体而言,涉及一种基于3D孪生卷积网络的高性能视频跟踪方法及系统。
技术介绍
[0002]视频目标跟踪是指利用视频或者图像序列的上下文信息,对目标的外观和运动信息进行建模,从而对目标运动状态进行预测并标定位置的技术。通常情况下,根据视频第一帧中指定的目标,在后续视频帧中持续跟踪该特定目标,实现目标的定位和目标尺度估计。视频目标跟踪具有广泛的应用价值,可用于视频监控、无人驾驶、精确制导等领域。
[0003]随着深度学习和卷积网络的快速发展,出现了越来越多基于卷积网络的视频目标跟踪器。研究者们更加青睐基于孪生网络的跟踪器,其不仅在跟踪速度上占据了优势,而且还取得了不错的精度。这种基于孪生网络的跟踪器把视觉跟踪看作是相似性匹配问题。2016年,Bertinetto等首次提出用于视觉跟踪的SiamFC跟踪器(Luca Bertinetto,JackValmadre,F.Henriques,Andrea Vedaldi,Philip ...
【技术保护点】
【技术特征摘要】
1.一种基于3D孪生卷积网络的高性能视频跟踪方法,其特征在于,所述方法由计算机执行,包括以下步骤:S1、构建网络架构,该网络由时空特征提取器、多模板匹配模块以及目标预测模块组成;S2、分别给定模板序列视频帧和搜索序列视频帧,并将其裁剪成模板序列块和搜索序列块,作为整个网络架构的输入;S3、构建时空特征提取器,该模块是一个3D孪生全卷积网络,包括模板分支和搜索分支,以3D全卷积网络作为基础网络且权值共享;将模板序列块和搜索序列块作为输入,时空特征提取器从其中提取模板时空特征和搜索时空特征;S4、构建多模板匹配模块,包括模板特征转换子模块和时空特征匹配子模块,利用模板特征转换子模块将模板帧中的外观和运动信息传递给搜索分支,得到更具有辨别力的搜索特征;时空特征匹配子模块由两个深度相关分支组成,分别用于分类和回归,并以模板时空特征和增强后的搜索特征作为输入,得到多通道相关滤波特征;S5、构建目标预测模块,主要由分类头、质量评估头和回归头组成;将分类分支输出的多通道相关滤波特征作为分类头、质量评估头的输入,得到分类得分图、质量评估得分图;以回归分支输出的多通道相关滤波特征作为回归头的输入得到回归图;S6、利用分类得分图和质量评估得分图定位序列中每一视频帧目标的位置;根据回归图,对序列中每一视频帧的目标尺度进行估计;最终得到搜索序列中每一视频帧的目标预测框;S7、通过最小化联合损失优化网络模型,包括分类和质量评估的交叉熵损失,以及回归的交并比损失,最终得到高性能视频目标跟踪器模型;S8、以训练的网络模型为视觉跟踪器,对给定的视频进行逐视频序列的目标跟踪;为了保证稳定和准确的跟踪,定义置信搜索区域估计策略,根据当前视频序列中不同的目标状态裁剪下一个序列的搜索区域,减少误差累积,准确地定位搜索序列中每一视频帧的目标。2.如权利要求1所述的一种基于3D孪生卷积网络的高性能视频跟踪方法,其特征在于构建基于3D孪生卷积网络的视频目标跟踪网络结构,其具体实现过程如下:S11、构建一个基于3D孪生网络的时空特征提取器,包括模板分支和搜索分支,以3D全卷积神经网络作为基础网络且权值共享,用于从输入的视频序列块中提取模板时空特征和搜索时空特征;S12、构建多模板匹配模块,包括模板特征转换子模块和时空特征匹配子模块,利用模板特征转换子模块将模板帧中的外观和运动信息传递给搜索分支,得到更具有辨别力的搜索特征;时空特征匹配子模块由两个深度相关分支组成,分别用于分类和回归,并以模板时空特征和增强后的搜索特征作为输入,得到多通道相关滤波特征;S13、目标预测模块包括分类头、质量评估头和回归头,以多通道相关滤波特征作为输入,通过分类头、质量评估头和回归头,分别得到分类得分图、质量评估得分图和回归图。3.如权利要求1所述的一种基于3D孪生卷积网络的高性能视频跟踪方法,其特征在于构建模板序列块和搜索序列块,其具体实现过程如下:S21、给定模板序列,根据模板序列中每一视频帧中目标的真实值信息,获取目标的中心位置和宽度、高度信息,并表示为(x,y,w,h);
S211、根据S21给定的每一真实目标框信息,计算目标框宽和高的扩充值p=(w+h)/2,并计算缩放因子用于缩放扩充后的目标框区域;如果加上扩充值后的目标框区域超出了视频帧的边界值,则使用当前视频帧的平均RGB值进行填充;最终,模板序列中的每一视频帧剪裁为127
×
127大小的模板块;S212、对模板序列中每一视频帧裁剪之后得到模板块其中k表示模板序列中视频帧的总数目;S22、给定搜索序列,根据模板序列中第一帧视频帧目标的真实值信息,获取目标的中心位置和宽度、高度信息,并表示为(X,Y,W,H);S221、根据S22给定的真实目标框信息,计算目标框宽和高的扩充值P=(W+H)/2,并计算缩放因子来用于缩放扩充后的目标框区域;如果加上扩充值后的目标框区域超出了视频帧的边界值,则使用当前视频帧的平均RGB值来填充,最终,搜索序列中每一视频帧裁剪为255
×
255大小的搜索块;S222、对搜索序列中每一视频帧裁剪之后得到搜索块其中k表示搜索序列中视频帧的总数目。4.如权利要求1所述的一种基于3D孪生卷积网络的高性能视频跟踪方法,其特征在于构建时空特征提取器,其具体实现过程如下:S31、构建特征提取网络,其中每一分支是一个由五个残差块组成的Res2+1D网络;S32、将Res2+1D的第一块残差块中的padding属性修改为1
×4×
4,分别将第四块残差块输出通道和第五块的输入通道修改为256,去掉第五块残差块的下采样和最终分类层;由此,输出的时空特征和输入的视频序列具有相同的时间长度;S33、将步骤S212和S222中得到的模板块和搜索块输入到时空特征提取器中,分别得到模板时空特征和搜索时空特征5.如权利要求1所述的一种基于3D孪生卷积网络的高性能视频跟踪方法,其特征在于构建多模板匹配模块,其具体实现过程如下:S41、模板特征转换子模块在模板特征与搜索特征之间借助交互注意力机制建立联系;首先,将模板特征F
Z
转换成维度为的时空矩阵,搜索特征转F
X
转换为维度为的时空矩阵,其中N
Z
=k
×
h
×
w,N
X
=k
×
H
×
W;S411、利用注意力机制,计算交叉注意力矩阵具体如下:其中φ(
·
)是一个1
×
1的线性变换操作,softmax表示归一化操作;S412、给定模板时空特征F
Z
,计算每个特征图的高斯掩码m
i
(y)=exp(
‑
||y
‑
c||2/2σ2),其中y表示每张特征图中的像素点位置,c表示每帧目标的真实中心位置,得到高斯掩码集并将其转换维度为S413、利用交叉注意力矩阵A
Z
→
X
,将M
′
作为注意力权重,计算传递的掩码
并与搜索特征进行逐元素乘积运算,得到掩码搜索特征进行逐元素乘积运算,得到掩码搜索特征其中表示逐元素相乘,Ins.Norm表示实例归一化操作,能够更准确地找到搜索区域中目标的潜在位置;S414、同时,对模板序列中上下文信息进行编码并传递给搜索特征;根据高斯掩码集M
′
,计算掩码模板特征以突出搜索区域中目标位置,弱化背景干扰;并传递到搜索分支,得到传递后的掩码模板特征S415、进一步将特征传递后的掩码模板...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。