The invention provides a high-performance visual tracking method, which comprises the following steps: extracting the image block of the frame from the object position of the previous frame of the video, extracting the original multi-channel features of the image block; extracting the original multi-channel features of the current frame from the object position of the previous frame of the video; and steaming the original multi-channel features of the two frames through channels. The distillation module obtains the compressed multi-channel features; Fourier transform is applied to the compressed multi-channel features, and point multiplication operation is carried out with the tracking model, then inverse Fourier transform is carried out to obtain the response map; the maximum response position on the response map is found, and the object deviation vector is obtained, and the object deviation vector is added with the object position of the previous frame corresponding to the current frame, and the appropriate result is obtained. The object position of the previous frame; according to the object position of the current frame, the compressed multi-channel features are calculated and the tracking model is updated. The invention also provides a high-performance visual tracking device.
【技术实现步骤摘要】
一种高性能视觉跟踪方法及装置
本专利技术属于计算机视觉和多媒体分析领域,尤其涉及一种针对资源受限条件下的视觉跟踪方法及装置。
技术介绍
高性能的视觉跟踪在很多计算机视觉和多媒体分析领域具有重要应用,例如视频内容分析、视频监控、自动导航和人机交互等。当前的视觉跟踪方案通常采用多通道特征来表示视觉物体,并嵌入到一个优化框架中,取得了很好的跟踪效果。尤其是随着深度学习技术的发展,当前最先进的视觉跟踪器往往采用深度特征作为多通道特征来表示视觉物体,取得了当前最高的跟踪精度。尽管如此,由于深度学习模型的参数较大造成模型推理时内存占用大、计算复杂度高,使得把这些视觉跟踪器在资源受限条件下部署十分困难。为了提升视觉跟踪器的跟踪效率以改进部署能力,近年来提出了一些视觉跟踪方法,根据特征处理方式不同,这些方法可以分为三类,即学习类跟踪、加权类跟踪和压缩类跟踪。学习类跟踪直接从大规模的数据中学习新的模型来进行视觉物体的特征表示(参见:L.Bertinetto,J.Valmadre,J.F.Henriques,andetal..2016.Fully-ConvolutionalSiameseNetworksforObjectTracking.In:ECCVWorkshop.850-865),这类跟踪方法通常需要额外的大规模训练,并且最重要的一个要素是将从各种不同视觉物体数据中训练得到的知识能够进行迁移以实现特定视觉物体的跟踪;因此,这类方法中没有解决如何自适应地迁移想要的知识而不是全部知识。加权类跟踪通过自适应地度量通道的影响对多通道特征进行加权处理提升视觉物体的表达能力或者通道 ...
【技术保护点】
1.一种高性能视觉跟踪方法,其步骤包括:根据视频的前一帧的物体位置提取该帧的图像块,提取该图像块的原始多通道特征;根据视频的前一帧的物体位置提取当前帧的图像块,提取该图像块的原始多通道特征;将上述两帧的原始多通道特征经过通道蒸馏模块,得到压缩后的多通道特征;对压缩后的多通道特征进行傅里叶变换,并与跟踪模型进行点乘操作,再进行傅里叶逆变换,得到响应图;寻找响应图上的最大响应位置,得到物体偏离向量,并将物体偏离向量与当前帧所对应的前一帧的物体位置相加,得到当前帧的物体位置;根据当前帧的物体位置,计算压缩后的多通道特征,更新跟踪模型。
【技术特征摘要】
1.一种高性能视觉跟踪方法,其步骤包括:根据视频的前一帧的物体位置提取该帧的图像块,提取该图像块的原始多通道特征;根据视频的前一帧的物体位置提取当前帧的图像块,提取该图像块的原始多通道特征;将上述两帧的原始多通道特征经过通道蒸馏模块,得到压缩后的多通道特征;对压缩后的多通道特征进行傅里叶变换,并与跟踪模型进行点乘操作,再进行傅里叶逆变换,得到响应图;寻找响应图上的最大响应位置,得到物体偏离向量,并将物体偏离向量与当前帧所对应的前一帧的物体位置相加,得到当前帧的物体位置;根据当前帧的物体位置,计算压缩后的多通道特征,更新跟踪模型。2.如权利要求1所述的方法,其特征在于,若前一帧为第一帧,则该第一帧的物体位置已知。3.如权利要求1所述的方法,其特征在于,根据视频的至少前两帧的原始多通道特征,得到压缩后的多通道特征,通过最小化能量函数,得到通道蒸馏模块和跟踪模型。4.如权利要求3所述的方法,其特征在于,通过压缩后的多通道特征的相关响应图与期望响应图之间的差异来构造能量函数,该期望响应图为一个中间响应值大而周围响应值接近于0的高斯型的函数。5.如权利要求3或4所述的方法,其特征在于,所述能量函数为:其中,h是跟踪模型,h(l)是h的第l个通道模板;d维的二值向量a=(α1,α2,…,αd)用于表示一个通道选择,αl=1表示第l个...
【专利技术属性】
技术研发人员:葛仕明,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。