一种基于孪生循环神经网络的目标跟踪方法及系统技术方案

技术编号：26259928 阅读：13 留言：0更新日期：2020-11-06 17:55

本发明专利技术公开了一种基于孪生循环神经网络的目标跟踪方法及系统。其中，使用的目标跟踪模型包括孪生网络模块和循环神经网络模块，孪生网络模块包括上、下支路，孪生网络模块的下支路连接所述循环神经网络模块，所述方法包括获取跟踪目标视频帧；基于跟踪目标视频帧，训练孪生网络模块，所述训练包括使跟踪目标在对应的相关性响应特征图上的位置获得响应最大值；固定孪生网络模块参数，训练循环神经网络模块，使其具备预测跟踪目标下一帧位置及尺度的能力；联合训练孪生网络模块和循环神经网络模块，提高目标跟踪模型的目标跟踪准确性；所述目标跟踪模型，还包括判别模块，用于判别目标跟踪是否成功。本发明专利技术能够提高目标跟踪的准确性和鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于孪生循环神经网络的目标跟踪方法及系统
本专利技术涉及一种基于孪生循环神经网络的目标跟踪方法及系统，属于计算机视觉领域。
技术介绍
目标跟踪在计算机视觉领域一直是研究难点和热点，其在众多领域有着广泛的前景，比如说无人驾驶、人机交互和安保监控等等。针对目标跟踪的研究已经发展了数十年，虽然已经取得了很多不错的成果，但是因为目标跟踪任务的多变性，获得一个既能够实时高效又鲁棒准确的跟踪器仍然存在很多挑战。目标跟踪技术的发展方向主要分为两大类：相关滤波法和深度学习法。基于相关滤波的跟踪器速度快但准确性不高，基于深度学习的跟踪器准确性高但计算代价高、速度慢。随着硬件性能的提升及相关算法的进步，最近几年基于深度学习的目标跟踪发展迅速。为了获得高准确性，深度学习目标跟踪通常是以目标检测为基础，把目标跟踪任务抽象为一个二分类问题，训练分类器，只要能准确的区分前景(跟踪目标)和背景即可。另外一种方法则是借鉴了相关滤波的思想，采用孪生网络的框架结构，将神经网络提取的特征作为卷积核，对图像搜寻区域进行卷积操作，比较跟踪目标与待搜寻图像区域的相似性，相似性最高处即为目标所处位置。上述两类方法都是从外观模型出发，仅仅考虑的是跟踪目标的表观空间特征，但是目标跟踪是一个时序性的过程，在跟踪过程中，目标的时序信息也能发挥重要作用，因此如何充分有效地利用时序信息也应当被考虑。
技术实现思路
基于上述分析，本专利技术的目的在于：提供一种基于孪生循环神经网络的目标跟踪方法及系统，以克服常规循环神经网络容易发生梯度爆炸和消失...

【技术保护点】
1.一种基于孪生循环神经网络的目标跟踪方法，其特征在于，所述方法包括如下步骤：/n获取待跟踪目标视频；/n将获取的待跟踪目标视频输入预先训练好的目标跟踪模型，目标跟踪模型输出准确的目标跟踪位置；/n所述目标跟踪模型包括孪生网络模块和循环神经网络模块，孪生网络模块包括上支路、下支路，下支路与循环神经网络模块连接，上支路和下支路均包括卷积神经网络；/n其中，对待跟踪目标视频中第一帧图像构建目标区域，作为孪生网络模块上支路的输入，待跟踪目标视频中的后续帧图像作为孪生网络模块下支路的输入。/n

【技术特征摘要】
1.一种基于孪生循环神经网络的目标跟踪方法，其特征在于，所述方法包括如下步骤：
获取待跟踪目标视频；
将获取的待跟踪目标视频输入预先训练好的目标跟踪模型，目标跟踪模型输出准确的目标跟踪位置；
所述目标跟踪模型包括孪生网络模块和循环神经网络模块，孪生网络模块包括上支路、下支路，下支路与循环神经网络模块连接，上支路和下支路均包括卷积神经网络；
其中，对待跟踪目标视频中第一帧图像构建目标区域，作为孪生网络模块上支路的输入，待跟踪目标视频中的后续帧图像作为孪生网络模块下支路的输入。

2.根据权利要求1所述的方法，其特征在于，所述目标跟踪模型的构建方法，包括：
上支路使用卷积神经网络提取目标区域图像的特征，获得目标区域特征图；
下支路使用卷积神经网络提取搜索区域图像的特征，获得搜索区域特征图；
下支路提取的特征经全连接层送入循环神经网络模块；
循环神经网络模块输出预测的跟踪目标位置及尺度，从而得到目标包围框；
将目标包围框映射到下支路获取的搜索区域特征图上，得到感兴趣目标区域；
将上支路获取的目标区域特征图作为卷积核，对映射有目标包围框的搜索区域特征图进行卷积操作，得到相关性响应特征图，相关性响应特征图中响应值最大的位置为目标跟踪位置。

3.根据权利要求2所述的方法，其特征在于，所述上支路、下支路的卷积神经网络均包含4个卷积层和4个最大池化层，4个卷积层卷积核的大小依次为7×7、5×5、3×3和3×3，卷积操作的步长设置为2；所述全连接层连接在4个卷积层和4个最大池化层之后，全连接层后面连接RELU层和BN层，全连接层的输出维度为512维。

4.根据权利要求2所述的方法，其特征在于，所述目标跟踪模型的训练方法，包括：
获取目标视频帧序列数据集；
根据目标位置和尺寸，对数据集中的每一段目标视频帧序列中的每一帧图像进行裁剪，获得所有帧图像的目标区域图像和搜索区域图像，将其作为训练集；
基于获取的训练集，训练孪生网络模块，使跟踪目标在对应的相关性响应特征图上的位置获得响应最大值，获得响应最大值时的孪生网络模块参数；
固定所述孪生网络模块参数，单独训练循环神经网络模块，使其具备预测跟踪目标下一帧位置及尺度的能力；
解除对孪生网络模块参数的固定，联合训练孪生网络模块和循环神经网络模块，得到端到端的网络模型。

...

【专利技术属性】
技术研发人员：韩光，刘耀明，朱梦成，艾岳川，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人