一种高性能视觉跟踪方法及装置制造方法及图纸

技术编号:20120790 阅读:27 留言:0更新日期:2019-01-16 12:36
本发明专利技术提供一种高性能视觉跟踪方法,其步骤包括:根据视频的前一帧的物体位置提取该帧的图像块,提取该图像块的原始多通道特征;根据视频的前一帧的物体位置提取当前帧的图像块,提取该图像块的原始多通道特征;将上述两帧的原始多通道特征经过通道蒸馏模块,得到压缩后的多通道特征;对压缩后的多通道特征进行傅里叶变换,并与跟踪模型进行点乘操作,再进行傅里叶逆变换,得到响应图;寻找响应图上的最大响应位置,得到物体偏离向量,并将物体偏离向量与当前帧所对应的前一帧的物体位置相加,得到当前帧的物体位置;根据当前帧的物体位置,计算压缩后的多通道特征,更新跟踪模型。本发明专利技术还提供一种高性能视觉跟踪装置。

A High Performance Visual Tracking Method and Device

The invention provides a high-performance visual tracking method, which comprises the following steps: extracting the image block of the frame from the object position of the previous frame of the video, extracting the original multi-channel features of the image block; extracting the original multi-channel features of the current frame from the object position of the previous frame of the video; and steaming the original multi-channel features of the two frames through channels. The distillation module obtains the compressed multi-channel features; Fourier transform is applied to the compressed multi-channel features, and point multiplication operation is carried out with the tracking model, then inverse Fourier transform is carried out to obtain the response map; the maximum response position on the response map is found, and the object deviation vector is obtained, and the object deviation vector is added with the object position of the previous frame corresponding to the current frame, and the appropriate result is obtained. The object position of the previous frame; according to the object position of the current frame, the compressed multi-channel features are calculated and the tracking model is updated. The invention also provides a high-performance visual tracking device.

【技术实现步骤摘要】
一种高性能视觉跟踪方法及装置
本专利技术属于计算机视觉和多媒体分析领域,尤其涉及一种针对资源受限条件下的视觉跟踪方法及装置。
技术介绍
高性能的视觉跟踪在很多计算机视觉和多媒体分析领域具有重要应用,例如视频内容分析、视频监控、自动导航和人机交互等。当前的视觉跟踪方案通常采用多通道特征来表示视觉物体,并嵌入到一个优化框架中,取得了很好的跟踪效果。尤其是随着深度学习技术的发展,当前最先进的视觉跟踪器往往采用深度特征作为多通道特征来表示视觉物体,取得了当前最高的跟踪精度。尽管如此,由于深度学习模型的参数较大造成模型推理时内存占用大、计算复杂度高,使得把这些视觉跟踪器在资源受限条件下部署十分困难。为了提升视觉跟踪器的跟踪效率以改进部署能力,近年来提出了一些视觉跟踪方法,根据特征处理方式不同,这些方法可以分为三类,即学习类跟踪、加权类跟踪和压缩类跟踪。学习类跟踪直接从大规模的数据中学习新的模型来进行视觉物体的特征表示(参见:L.Bertinetto,J.Valmadre,J.F.Henriques,andetal..2016.Fully-ConvolutionalSiameseNetworksforObjectTracking.In:ECCVWorkshop.850-865),这类跟踪方法通常需要额外的大规模训练,并且最重要的一个要素是将从各种不同视觉物体数据中训练得到的知识能够进行迁移以实现特定视觉物体的跟踪;因此,这类方法中没有解决如何自适应地迁移想要的知识而不是全部知识。加权类跟踪通过自适应地度量通道的影响对多通道特征进行加权处理提升视觉物体的表达能力或者通道响应进行加权提高跟踪定位的准确性(参见:A.Lukezi,T.Vojir,L.C.Zajc,andetal..2017.DiscriminativeCorrelationFilterwithChannelandSpatialReliability.InIEEECVPR.6309-6318),通常这类跟踪方法取得较好的跟踪精度,但是特征通道的数量没有减少仍保持很大。压缩类跟踪则是通过降低或压缩特征的维度来提升跟踪效能(参见:M.Danelljan,G.Bhat,F.Khan,andM.Felsberg.2017.ECO:EfficientConvolutionOperatorsforTracking.InIEEECVPR6638-6646),这些方法通常降低了模型参数,但是内存的复杂度还是很高。通常地,多通道特征具有通用的知识,能够对视觉物体从不同角度进行描述,视觉跟踪的核心问题是(1)如何自适应地从通用知识中提取正确的知识,以及(2)如何迁移这些知识用于跟踪特定的视觉物体。
技术实现思路
为克服现有技术的不足,本专利技术提供了一种高性能视觉跟踪方法及装置,该方法采用通道蒸馏算法,根据要跟踪的视觉物体自适应地鉴别并选择特征通道,降低多通道特征的维度并提升特征的表达能力。首先,已知视觉物体位置的当前视频帧经过多通道特征提取器即特征提取模块,得到多通道特征,特征提取模块可以采用预设定好的多通道特征提取模型或者预训练好的深度学习模型;然后,多通道特征通过预先训练好的通道蒸馏模块,得到压缩后的多通道特征;接着,压缩后的多通道特征进行傅里叶变换并与训练好的跟踪模型即相关滤波器进行相关操作,得到响应图;然后,根据响应图的最大响应位置得到视觉物体偏离向量,并与前一帧的物体位置相加得到当前帧的物体位置;最后,根据当前帧的物体位置更新跟踪模型。同时,本专利技术还提出通道蒸馏模块的训练方法,通过优化能量函数来选择最优的特征通道,实现特征压缩,自适应地提升特征表达能力,并提高处理速度及降低内存。为达到上述目的,本专利技术通过以下技术方案来实现:一种高性能视觉跟踪方法,其步骤包括:根据视频的前一帧的物体位置提取该帧的图像块,提取该图像块的原始多通道特征;根据视频的前一帧的物体位置提取当前帧的图像块,提取该图像块的原始多通道特征;将上述两帧的原始多通道特征经过通道蒸馏模块,得到压缩后的多通道特征;对压缩后的多通道特征进行傅里叶变换,并与跟踪模型进行点乘操作,再进行傅里叶逆变换,得到响应图;寻找响应图上的最大响应位置,得到物体偏离向量,并将物体偏离向量与当前帧所对应的前一帧的物体位置相加,得到当前帧的物体位置;根据当前帧的物体位置,计算压缩后的多通道特征,更新跟踪模型。进一步地,若前一帧为第一帧,则该第一帧的物体位置已知。进一步地,根据视频的至少前两帧的原始多通道特征,得到压缩后的多通道特征,通过最小化能量函数,得到通道蒸馏模块和跟踪模型。进一步地,通过压缩后的多通道特征的相关响应图与期望响应图之间的差异来构造能量函数,该期望响应图为一个中间响应值大而周围响应值接近于0的高斯型的函数。进一步地,所述能量函数为:其中αl∈{0,1}其中,h是跟踪模型,h(l)是h的第l个通道模板;d维的二值向量a=(α1,α2,…,αd)用于表示一个通道选择,αl=1表示第l个特征通道被选择,αl=0表示第l个特征通道不被选择;‖a‖表示选择的通道数目;常数λ用于平衡两部分能量损失;是离散傅立叶变换操作,⊙是按位点乘操作,*是共轭操作。进一步地,通过交替优化算法进行优化,得到最小化能量函数。进一步地,通过特征提取模块提取原始多通道特征,该特征提取模块为预设定好的多通道特征提取模型、或预训练好的深度学习模型、或二者的组合。进一步地,预设定好的多通道特征提取模型可提取HOG(HistogramofOrientedGradients,简称梯度直方图)特征或颜色属性特征。进一步地,将压缩后的多通道特征采用傅里叶变换转化成频域,与跟踪模型进行加权累加,以更新跟踪模型。一种高性能视觉跟踪装置,包括:特征提取模块,采用预设定好的特征提取器、预训练好的深度学习模型或者两者的组合,提取得到原始多通道特征;通道蒸馏模块,用于从原始多通道特征中选择最富信息通道的特征,得到压缩后的多通道特征;特征比对模块,用于将压缩后的多通道特征与跟踪模型进行相关操作,得到相关响应图;响应预测模块,用于根据相关响应图寻找最大响应位置,获得物体偏移向量,从而计算出当前物体位置;模型更新模块,用于根据当前物体位置的信息更新跟踪模型;跟踪模型,为多通道模板,用于与物体多通道特征进行特征比对。本专利技术的有益效果在于:针对视觉物体跟踪问题,尤其是针对资源受限条件下的视觉物体跟踪问题,本专利技术的方法及装置对特征进行自适应的压缩与蒸馏,在保持跟踪精度情况下,在跟踪速度、内存占用上具有极大优势;另外,本专利技术在采用小型化的深度学习模型作为物体表示也能获得很高的精度,而同类型的物体跟踪方法则需要采用很大的深度学习模型作为物体表示才能取得高精度。附图说明图1为实施例的一种高性能视觉跟踪方法的装置结构图。图2A为预设定好的基于梯度直方图的多通道特征模型结构图。图2B为预设定好的基于颜色属性的多通道特征模型结构图。图3A为预训练好的小型化深度学习模型图。图3B为预训练好的深大型化度学习模型图。图4是通道蒸馏模块的处理示意图。图5是特征比对模块的处理流程图。具体实施方式为使本专利技术的上述方案和有益效果更明显易懂,下文通过实施例,并配合附图作详细说明如下。本实施例提供一种高性能本文档来自技高网
...

【技术保护点】
1.一种高性能视觉跟踪方法,其步骤包括:根据视频的前一帧的物体位置提取该帧的图像块,提取该图像块的原始多通道特征;根据视频的前一帧的物体位置提取当前帧的图像块,提取该图像块的原始多通道特征;将上述两帧的原始多通道特征经过通道蒸馏模块,得到压缩后的多通道特征;对压缩后的多通道特征进行傅里叶变换,并与跟踪模型进行点乘操作,再进行傅里叶逆变换,得到响应图;寻找响应图上的最大响应位置,得到物体偏离向量,并将物体偏离向量与当前帧所对应的前一帧的物体位置相加,得到当前帧的物体位置;根据当前帧的物体位置,计算压缩后的多通道特征,更新跟踪模型。

【技术特征摘要】
1.一种高性能视觉跟踪方法,其步骤包括:根据视频的前一帧的物体位置提取该帧的图像块,提取该图像块的原始多通道特征;根据视频的前一帧的物体位置提取当前帧的图像块,提取该图像块的原始多通道特征;将上述两帧的原始多通道特征经过通道蒸馏模块,得到压缩后的多通道特征;对压缩后的多通道特征进行傅里叶变换,并与跟踪模型进行点乘操作,再进行傅里叶逆变换,得到响应图;寻找响应图上的最大响应位置,得到物体偏离向量,并将物体偏离向量与当前帧所对应的前一帧的物体位置相加,得到当前帧的物体位置;根据当前帧的物体位置,计算压缩后的多通道特征,更新跟踪模型。2.如权利要求1所述的方法,其特征在于,若前一帧为第一帧,则该第一帧的物体位置已知。3.如权利要求1所述的方法,其特征在于,根据视频的至少前两帧的原始多通道特征,得到压缩后的多通道特征,通过最小化能量函数,得到通道蒸馏模块和跟踪模型。4.如权利要求3所述的方法,其特征在于,通过压缩后的多通道特征的相关响应图与期望响应图之间的差异来构造能量函数,该期望响应图为一个中间响应值大而周围响应值接近于0的高斯型的函数。5.如权利要求3或4所述的方法,其特征在于,所述能量函数为:其中,h是跟踪模型,h(l)是h的第l个通道模板;d维的二值向量a=(α1,α2,…,αd)用于表示一个通道选择,αl=1表示第l个...

【专利技术属性】
技术研发人员:葛仕明
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1