一种视频目标跟踪方法及装置制造方法及图纸

技术编号：34031371 阅读：11 留言：0更新日期：2022-07-06 11:12

本发明专利技术提供一种视频目标跟踪方法及装置。所述方法包括：将跟踪目标图像和搜索区域图像分别输入到第一特征提取模块和第二特征提取模块，进行图像特征提取；将跟踪目标特征和搜索区域特征输入到基于交互注意力机制的特征融合模块进行特征融合；将融合特征输入到分类和回归模块，输出包围框内的图像类别及包围框的位置及尺寸信息。本发明专利技术通过采用注意力机制进行图像特征提取，可获得感兴趣区域特征以提高特征提取效率；采用交互注意力机制进行特征融合使目标特征和搜索区域特征充分交互，解决了现有技术因为光照、形变、遮挡等情况跟丢目标的问题。标的问题。标的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种视频目标跟踪方法及装置

[0001]本专利技术属于视频目标跟踪
，具体涉及一种视频目标跟踪方法及装置。

技术介绍

[0002]视频目标跟踪在智能监控、视觉导航等领域得到了越来越广泛的应用。视频目标跟踪一般是指在已知视频第一帧图像给出的待跟踪目标的位置和尺寸信息的情况下，在后续的视频帧图像中，跟踪器能够准确找到目标并预测其位置尺寸。由于目标跟踪不需要知道待跟踪目标的类别信息，因此在实际应用中具有较强的灵活性。传统的目标跟踪的方法是基于手工设计的待跟踪目标特征描述子，但基于手工设计的特征描述子无法充分考虑以上各种因素的影响。
[0003]近几年来，随着深度学习的出现，待跟踪目标的特征描述是由深度学习网络模型自主学习待跟踪目标的特征描述。目前基于深度学习网络模型的目标跟踪方法大致可以分为粒子滤波和孪生网络匹配两类。粒子滤波的方法是在跟踪目标周围撒大量粒子(粒子的位置和尺寸是通过跟踪目标的信息进行一定的变化得到的)，然后对每一个粒子进行得分判断，取得分最高的几个粒子信息的平均值，得到当前目标位置和尺寸信息。孪生网络匹配的方法是将跟踪目标进行提取特征，然后以跟踪目标为中心取一个较大的图像块(目标搜索区域)并提取特征，然后对两个特征进行匹配，取响应最大的位置和尺寸进行回归作为当前目标位置和尺寸。现有孪生网络匹配法一般没有考虑跟踪目标和搜索区域的完全交互，仅仅是基于响应最大值进行处理，导致在光照不同、遮挡、阴影、待跟踪目标形变等场景下跟丢目标的情况出现。

技术实现思路

[0004]为了解决现有技术...

【技术保护点】

【技术特征摘要】
1.一种视频目标跟踪方法，其特征在于，包括以下步骤：将跟踪目标图像和搜索区域图像分别输入到基于注意力机制、结构和权重相同的第一特征提取模块和第二特征提取模块，进行图像特征提取；将提取的跟踪目标图像特征和搜索区域图像特征输入到基于交互注意力机制的特征融合模块，进行特征融合；将特征融合模块输出的融合特征输入到分类和回归模块，输出包围框内的图像类别及包围框的位置及尺寸信息，所述图像类别包括前景和背景。2.根据权利要求1所述的视频目标跟踪方法，其特征在于，在特征提取前还包括：将跟踪目标图像和搜索区域图像分别输入到结构和权重相同的第一图像块编码模块和第二图像块编码模块，将输入图像分割成多个图像块，并将每个图像块中的像素值合成为一个向量。3.根据权利要求2所述的视频目标跟踪方法，其特征在于，所述第一特征提取模块和第二特征提取模块均采用Transformer自注意力机制，通过结构相似的窗口多头自注意力层和移位窗口多头自注意力层进行自注意力计算提取图像特征；窗口多头自注意力层将特征图划分成大小为M的窗口，并每个窗口上进行自注意力计算；移位窗口多头自注意力层在窗口多头自注意力层的下一层，通过将窗口整体平移1/2个M的大小，在下一层得到新的窗口以提高感受野，并将平移后的小窗口拼接以保证窗口的数目不变。4.根据权利要求3所述的视频目标跟踪方法，其特征在于，在特征融合前还包括：将第一特征提取模块和第二特征提取模块提取的特征输入到特征级联模块，将提取的两种特征分别拉长为一维向量后进行连接，将特征图由三维数据平铺为一维向量。5.根据权利要求4所述的视频目标跟踪方法，其特征在于，所述特征融合模块包括编码器和解码器，编码器通过对特征级联模块输出的一维向量进行自注意力计算，实现对两种特征的充分交互；解码器采用交叉注意力机制，通过对跟踪目标图像特征和搜索区域图像特征分别进行加权得到Q、K、V，然后利用分别进行本分支和跨分支的注意力计算实现特征融合，其中，Q、K、V为三个权重矩阵，d

【专利技术属性】
技术研发人员：高凯，周振，俞益洲，李一鸣，乔昕，
申请(专利权)人：杭州深睿博联科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人