无监督视觉目标跟踪方法及系统技术方案

技术编号：32862292 阅读：13 留言：0更新日期：2022-04-02 11:43

一种无监督视觉目标跟踪方法，通过组间跳跃间隔和组内跳跃间隔的方式进行数据采样，将得到的每一个视频帧以及视频帧集合作为孪生网络架构模型的训练样本进行包括逐帧的前向跟踪过程以及逐帧的后向跟踪过程的训练，再将用于测试的跟踪视频序列输入训练后的视觉跟踪模型得到最终预测的跟踪框，从而完成该帧中目标的跟踪。本发明专利技术具有很好的无监督训练能力，能学习帧间丰富的运动信息，提高训练效率和模型鲁棒性，并通过逐帧的前后向跟踪训练方式进行无监督训练。式进行无监督训练。式进行无监督训练。

全部详细技术资料下载

【技术实现步骤摘要】
无监督视觉目标跟踪方法及系统

[0001]本专利技术涉及的是一种图像处理领域的技术，具体是一种无监督视觉目标跟踪方法及系统，可以集成到类似的视觉目标跟踪孪生网络框架中进行高效的训练，从而提升模型的性能，比如SiamFC。

技术介绍

[0002]现有的视觉目标跟踪方法一般均基于有监督的方法训练实现，由于有监督训练需要大量标注好的训练数据且有标注的数据集的跟踪场景受到一定的限制，从而导致训练出的模型缺乏一定的泛化能力。无监督视觉目标跟踪方法相应解决这些问题，着重于寻找一个合适的辅助任务以及自监督信号，并直接使用原始数据进行训练，因此采样训练数据以及训练方式将实质性影响模型的无监督训练，进而决定无监督视觉目标跟踪方法的效果。
[0003]现有的无监督相关滤波目标跟踪方法往往在无监督相关滤波算法的训练中，同时引入对图像块位置索引的预测任务，以增加深度神经网络对物体细节特征的提取能力，并通过对不同层的特征进行融合使得算法兼顾语义信息和位置信息，从而解决物体细节特征的提取能力不够，且难以很好地兼顾语义信息和位置信息的问题。
[0004]但此类技术依旧存在训练数据冗余、多任务训练过程繁琐的问题。

技术实现思路

[0005]本专利技术针对现有技术无监督训练数据冗余，训练效率低下且模型鲁棒性无法满足需要的不足，提出一种无监督视觉目标跟踪方法，通过跳帧采样模块减少训练数据的冗余，具有很好的无监督训练能力，能学习帧间丰富的运动信息，提高训练效率和模型鲁棒性，并通过逐帧的前后向跟踪训练方式进行无监督训练。r/>[0006]本专利技术是通过以下技术方案实现的：
[0007]本专利技术涉及一种无监督视觉目标跟踪方法，通过组间跳跃间隔和组内跳跃间隔的方式进行数据采样，将得到的每一个视频帧以及视频帧集合作为孪生网络架构模型的训练样本进行包括逐帧的前向跟踪过程以及逐帧的后向跟踪过程的训练，将用于测试的跟踪视频序列输入训练后的孪生网络架构模型，得到最终预测的跟踪框，从而完成该帧中目标的跟踪。
[0008]本专利技术涉及一种实现上述方法的系统，包括：跳帧采样模块、特征提取模块、相关滤波器模块，其中：跳帧采样模块与特征提取模块相连并传输训练数据信息；特征提取模块与相关滤波器模块相连并传输提取到的特征信息；相关滤波器模块的输出即为跟踪响应结果。技术效果
[0009]本专利技术整体所解决了现有技术无监督训练数据的冗余较高且训练效率较低的问题，使用更加高效的逐帧的前后向跟踪训练方式提高模型的鲁棒性，通过本专利技术跳帧采样能够减少五倍训练数据量，提高了训练效率的同时提升跟踪性能。
附图说明
[0010]图1为跳帧采样模块实现图；
[0011]图2为逐帧的前后向跟踪训练方式流程图。
具体实施方式
[0012]本实施例涉及一种无监督视觉目标跟踪方法，包括以下步骤：
[0013]步骤1)训练阶段，执行数据采样，数据预处理和模型训练，具体包括：
[0014]步骤1.1)数据采样：对于单一的训练迭代，使用跳帧采样模块以组间跳跃间隔和组内跳跃间隔的方式选择一组视频帧作为输入。
[0015]所述的组内跳跃间隔用于降低训练数据相关性，并保持有价值的时间运动信息。
[0016]所述的组间跳跃间隔用于保证充分利用训练数据，减少重复帧和缺失帧。
[0017]如图1所示，为提出的跳帧采样模块的实现示意图，每个视频帧的长度为5。
[0018]步骤1.2)数据预处理：对经过跳帧采样后的每一个视频帧进行中心裁剪，目标尺寸为视频帧的1/6，经过填充操作，最终裁剪尺寸为视频帧的1/2，并将将裁剪后得到的图像块缩放至125x125尺寸大小，得到各组视频帧集合。
[0019]步骤1.3)模型训练：将步骤1.1数据采样以及步骤1.2数据预处理得到的每一个视频帧以及视频帧集合作为孪生网络架构模型的训练样本进行包括逐帧的前向跟踪过程以及逐帧的后向跟踪过程的训练。
[0020]如图2所示，所述的孪生网络架构模型包括模板分支和搜索分支，两个分支共享特征提取模块，该特征提取模块包括：两个卷积层，一个激活函数层和一个局部响应归一化层。
[0021]本实施例中优选设置第一个卷积层Conv1卷积核尺寸为3
×
3，步长为1
×
1，卷积核数量为32；第二个卷积层Conv2卷积核尺寸为3
×
3，步长为1
×
1，卷积核数量为32；这两个卷积层使用尺寸较大的卷积核，进行基本的特征提取；激活函数层为ReLU函数，缓解过拟合问题；最后一个局部响应归一化层，使得其中响应比较大的值变得相对更大，并抑制其他反馈较小的值，增强模型的泛化能力。
[0022]所述的逐帧的前向跟踪过程具体包括：
[0023]第一步，将视频帧集合的第一帧作为模板区域、将第二帧作为搜索区域，分别输入到共享的特征提取模块中以提取出模板特征和搜索特征；再将模板特征、搜索特征以及中心初始化的高斯响应输入到相关滤波器模块中得到第二帧的搜索响应。
[0024]第二步，将视频帧集合的第二帧作为模板区域、将第三帧作为搜索区域，分别输入到共享的特征提取模块中以提取出模板特征和搜索特征；再将模板特征、搜索特征以及第一步得到的输出响应输入到相关滤波器模块中得到第三帧的搜索响应。
[0025]第三步，重复第一步和第二步直至得到第五帧的搜索响应。
[0026]所述的逐帧的后向跟踪过程具体包括：
[0027]第一步，将视频帧集合的第五帧作为模板区域、将第四帧作为搜索区域，分别输入到共享的特征提取模块中以提取出模板特征和搜索特征；再将模板特征、搜索特征以及逐帧的前向跟踪过程的最后一步得到的响应输入到相关滤波器模块中得到第四帧的搜索响应。
[0028]第二步，将视频帧集合的第四帧作为模板区域、将第三帧作为搜索区域，分别输入到共享的特征提取模块中以提取出模板特征和搜索特征；再将模板特征、搜索特征以及第一步得到的输出响应输入到相关滤波器模块中得到第三帧的搜索响应。
[0029]第三步，重复第一步和第二步直至得到第一帧的搜索响应。
[0030]所述的训练，其采用的损失函数为计算中心初始化的高斯响应和逐帧的后向跟踪过程最后一步得到的搜索响应的均方误差，训练时卷积核和权重采用随机参数初始化，偏置采用全0初始化。采用随机梯度下降算法进行模型参数的更新，当模型迭代次数达到预设的迭代次数时，停止训练并保存训练好的模型。
[0031]步骤2)测试阶段：将用于测试的跟踪视频序列输入步骤1)得到的训练后的孪生网络架构模型中，具体包括：
[0032]2.1)对于待测试帧T，把上一帧T-1中预测得到的跟踪框作为中心，裁剪出125
×
125尺寸大小的搜索图像并输入到模型中，使用增量尺度估计方案来处理尺度变化，其中每个尺度对应一个单独的响应图，响应图中最大值的位置表示跟踪目标所在位置，并结合所对应的尺度得到最终预测的跟踪框，从而完成该帧中目本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种无监督视觉目标跟踪方法，其特征在于，通过组间跳跃间隔和组内跳跃间隔的方式进行数据采样，将得到的每一个视频帧以及视频帧集合作为孪生网络架构模型的训练样本进行包括逐帧的前向跟踪过程以及逐帧的后向跟踪过程的训练，将用于测试的跟踪视频序列输入训练后的孪生网络架构模型，得到最终预测的跟踪框，从而完成该帧中目标的跟踪。2.根据权利要求1所述的方法，其特征是，所述的数据采样，对于单一的训练迭代，使用跳帧采样模块以组间跳跃间隔和组内跳跃间隔的方式选择一组视频帧作为输入，其中组内跳跃间隔用于降低训练数据相关性，并保持有价值的时间运动信息；组间跳跃间隔用于保证充分利用训练数据，减少重复帧和缺失帧。3.根据权利要求1或2所述的方法，其特征是，所述的组内跳跃间隔为2，组间跳跃间隔为5。4.根据权利要求1所述的方法，其特征是，所述的训练样本，对采样所得的数据经预处理得到，具体为：对经过跳帧采样后的每一个视频帧进行中心裁剪，目标尺寸为视频帧的1/6，经过填充操作，最终裁剪尺寸为视频帧的1/2，并将将裁剪后得到的图像块缩放至125x125尺寸大小，得到各组视频帧集合。5.根据权利要求1所述的方法，其特征是，所述的孪生网络架构模型包括模板分支和搜索分支，两个分支共享特征提取模块，该特征提取模块包括：两个卷积层，一个激活函数层和一个局部响应归一化层。6.根据权利要求1所述的方法，其特征是，所述的逐帧的前向跟踪过程具体包括：第一步，将视频帧集合的第一帧作为模板区域、将第二帧作为搜索区域，分别输入到共享的特征提取模块中以提取出模板特征和搜索特征；再将模板特征、搜索特征以及中心初始化的高斯响应输入到相关滤波器模块中得到第二帧的搜索响应；第二步，将视频帧集合的第二帧作为...

【专利技术属性】
技术研发人员：朱佳君，马超，徐树公，
申请(专利权)人：上海大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人