一种基于孪生循环神经网络的目标跟踪方法及系统技术方案

技术编号:26259928 阅读:13 留言:0更新日期:2020-11-06 17:55
本发明专利技术公开了一种基于孪生循环神经网络的目标跟踪方法及系统。其中,使用的目标跟踪模型包括孪生网络模块和循环神经网络模块,孪生网络模块包括上、下支路,孪生网络模块的下支路连接所述循环神经网络模块,所述方法包括获取跟踪目标视频帧;基于跟踪目标视频帧,训练孪生网络模块,所述训练包括使跟踪目标在对应的相关性响应特征图上的位置获得响应最大值;固定孪生网络模块参数,训练循环神经网络模块,使其具备预测跟踪目标下一帧位置及尺度的能力;联合训练孪生网络模块和循环神经网络模块,提高目标跟踪模型的目标跟踪准确性;所述目标跟踪模型,还包括判别模块,用于判别目标跟踪是否成功。本发明专利技术能够提高目标跟踪的准确性和鲁棒性。

【技术实现步骤摘要】
一种基于孪生循环神经网络的目标跟踪方法及系统
本专利技术涉及一种基于孪生循环神经网络的目标跟踪方法及系统,属于计算机视觉领域。
技术介绍
目标跟踪在计算机视觉领域一直是研究难点和热点,其在众多领域有着广泛的前景,比如说无人驾驶、人机交互和安保监控等等。针对目标跟踪的研究已经发展了数十年,虽然已经取得了很多不错的成果,但是因为目标跟踪任务的多变性,获得一个既能够实时高效又鲁棒准确的跟踪器仍然存在很多挑战。目标跟踪技术的发展方向主要分为两大类:相关滤波法和深度学习法。基于相关滤波的跟踪器速度快但准确性不高,基于深度学习的跟踪器准确性高但计算代价高、速度慢。随着硬件性能的提升及相关算法的进步,最近几年基于深度学习的目标跟踪发展迅速。为了获得高准确性,深度学习目标跟踪通常是以目标检测为基础,把目标跟踪任务抽象为一个二分类问题,训练分类器,只要能准确的区分前景(跟踪目标)和背景即可。另外一种方法则是借鉴了相关滤波的思想,采用孪生网络的框架结构,将神经网络提取的特征作为卷积核,对图像搜寻区域进行卷积操作,比较跟踪目标与待搜寻图像区域的相似性,相似性最高处即为目标所处位置。上述两类方法都是从外观模型出发,仅仅考虑的是跟踪目标的表观空间特征,但是目标跟踪是一个时序性的过程,在跟踪过程中,目标的时序信息也能发挥重要作用,因此如何充分有效地利用时序信息也应当被考虑。
技术实现思路
基于上述分析,本专利技术的目的在于:提供一种基于孪生循环神经网络的目标跟踪方法及系统,以克服常规循环神经网络容易发生梯度爆炸和消失的问题。本专利技术实现上述目的的技术解决方案是:一方面,本专利技术提供了一种基于孪生循环神经网络的目标跟踪方法,包括如下步骤:获取待跟踪目标视频;将获取的待跟踪目标视频输入预先训练好的目标跟踪模型,目标跟踪模型输出准确的目标跟踪位置;所述目标跟踪模型包括孪生网络模块和循环神经网络模块,孪生网络模块包括上支路、下支路,下支路与循环神经网络模块连接,上支路和下支路均包括卷积神经网络;其中,对待跟踪目标视频中第一帧图像构建目标区域,作为孪生网络模块上支路的输入,待跟踪目标视频中的后续帧图像作为孪生网络模块下支路的输入。进一步地,所述目标跟踪模型的构建方法,包括:上支路使用卷积神经网络提取目标区域图像的特征,获得目标区域特征图;下支路使用卷积神经网络提取搜索区域图像的特征,获得搜索区域特征图;下支路提取的特征经全连接层送入循环神经网络模块;循环神经网络模块输出预测的跟踪目标位置及尺度,从而得到目标包围框;将目标包围框映射到下支路获取的搜索区域特征图上,得到感兴趣目标区域;将上支路获取的目标区域特征图作为卷积核,对映射有目标包围框的搜索区域特征图进行卷积操作,得到相关性响应特征图,相关性响应特征图中响应值最大的位置为目标跟踪位置。进一步地,所述上支路、下支路的卷积神经网络均包含4个卷积层和4个最大池化层,4个卷积层卷积核的大小依次为7×7、5×5、3×3和3×3,卷积操作的步长设置为2;所述全连接层连接在4个卷积层和4个最大池化层之后,全连接层后面连接RELU层和BN层,全连接层的输出维度为512维。进一步地,所述循环神经网络模块基于长短时记忆网络模型。进一步地,所述目标跟踪模型的训练方法,包括:获取目标视频帧序列数据集;根据目标位置和尺寸,对数据集中的每一段目标视频帧序列中的每一帧图像进行裁剪,获得所有帧图像的目标区域图像和搜索区域图像,将其作为训练集;基于获取的训练集,训练孪生网络模块,使跟踪目标在对应的相关性响应特征图上的位置获得响应最大值,获得响应最大值时的孪生网络模块参数;固定所述孪生网络模块参数,单独训练循环神经网络模块,使其具备预测跟踪目标下一帧位置及尺度的能力;解除对孪生网络模块参数的固定,联合训练孪生网络模块和循环神经网络模块,得到端到端的网络模型。进一步地,所述基于获取的训练集,训练孪生网络模块,包括:从训练集中随机抽取属于同一段目标视频帧序列中的一张目标区域图像和一张搜索区域图像,分别作为孪生网络模块上支路和下支路的输入。进一步地,所述固定所述孪生网络模块参数,单独训练循环神经网络模块,包括:对训练集中每一段目标视频帧序列,将其中单张目标区域图像作为孪生网络模块上支路的输入,其中多张连续的搜索区域图像以视频流的形式,从短视频依次增加至长视频,输入孪生网络模块的下支路。进一步地,所述解除对孪生网络模块参数的固定,联合训练孪生网络模块和循环神经网络模块,包括:对训练集中的每一段目标视频帧序列,输入其中单张目标区域图像到孪生网络模块的上支路,随机输入其中多张连续的搜索区域图像到孪生网络模块的下支路。进一步地,所述目标跟踪模型的构建方法,还包括:在目标跟踪模型中加入判别模块,所述判别模块对得到的相关性响应特征图进行得分评价,判别目标跟踪是否成功。进一步地,所述判别模块对得到的相关性响应特征图进行得分评价,判别目标跟踪是否成功,包括:所述判别模块,基于相关性响应特征图的得分进行3D建模,如果建模显示相关性响应特征图得分异常,则判别跟踪失败;启动重新探测,在上一帧图像目标位置附近随机选取与目标区域重叠面积大于70%的多个目标包围框,依次将多个目标包围框对应的特征图与给定的目标区域特征图送入孪生网络模块进行相关卷积操作得到置信度,并进行排列,选择置信度最高的目标包围框作为跟踪目标位置的输出;否则,判别跟踪成功,直接输出目标跟踪位置。另一方面,本专利技术提供了一种基于孪生循环神经网络的目标跟踪系统,包括:视频获取模块,用于获取待跟踪目标视频;目标跟踪模块,用于将获取的待跟踪目标视频输入预先训练好的目标跟踪模型,目标跟踪模型输出准确的目标跟踪位置;所述目标跟踪模型包括孪生网络模块和循环神经网络模块,孪生网络模块包括上支路、下支路,下支路与循环神经网络模块连接;其中,对待跟踪目标视频中第一帧图像构建目标区域,作为孪生网络模块上支路的输入,待跟踪目标视频中的后续帧图像作为孪生网络模块下支路的输入。另一方面,本专利技术提供了一种计算机可读存储介质,其上存储有一个或多个程序,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行所述的一种基于孪生循环神经网络的目标跟踪方法。另一方面,本专利技术提供了一种计算设备,包括:一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行所述的一种基于孪生循环神经网络的目标跟踪方法的指令。与现有技术相比,本专利技术的有益效果为:本专利技术将长短时记忆网络与孪生网络结构融合起来,形成了一种基于孪生循环神经网络的目标跟踪模型。将视频帧经过卷积神经网络得到的全局特征向量作为长短时记忆网络的输入,预测得到跟踪目标位置,再通过孪生网络和判别模本文档来自技高网...

【技术保护点】
1.一种基于孪生循环神经网络的目标跟踪方法,其特征在于,所述方法包括如下步骤:/n获取待跟踪目标视频;/n将获取的待跟踪目标视频输入预先训练好的目标跟踪模型,目标跟踪模型输出准确的目标跟踪位置;/n所述目标跟踪模型包括孪生网络模块和循环神经网络模块,孪生网络模块包括上支路、下支路,下支路与循环神经网络模块连接,上支路和下支路均包括卷积神经网络;/n其中,对待跟踪目标视频中第一帧图像构建目标区域,作为孪生网络模块上支路的输入,待跟踪目标视频中的后续帧图像作为孪生网络模块下支路的输入。/n

【技术特征摘要】
1.一种基于孪生循环神经网络的目标跟踪方法,其特征在于,所述方法包括如下步骤:
获取待跟踪目标视频;
将获取的待跟踪目标视频输入预先训练好的目标跟踪模型,目标跟踪模型输出准确的目标跟踪位置;
所述目标跟踪模型包括孪生网络模块和循环神经网络模块,孪生网络模块包括上支路、下支路,下支路与循环神经网络模块连接,上支路和下支路均包括卷积神经网络;
其中,对待跟踪目标视频中第一帧图像构建目标区域,作为孪生网络模块上支路的输入,待跟踪目标视频中的后续帧图像作为孪生网络模块下支路的输入。


2.根据权利要求1所述的方法,其特征在于,所述目标跟踪模型的构建方法,包括:
上支路使用卷积神经网络提取目标区域图像的特征,获得目标区域特征图;
下支路使用卷积神经网络提取搜索区域图像的特征,获得搜索区域特征图;
下支路提取的特征经全连接层送入循环神经网络模块;
循环神经网络模块输出预测的跟踪目标位置及尺度,从而得到目标包围框;
将目标包围框映射到下支路获取的搜索区域特征图上,得到感兴趣目标区域;
将上支路获取的目标区域特征图作为卷积核,对映射有目标包围框的搜索区域特征图进行卷积操作,得到相关性响应特征图,相关性响应特征图中响应值最大的位置为目标跟踪位置。


3.根据权利要求2所述的方法,其特征在于,所述上支路、下支路的卷积神经网络均包含4个卷积层和4个最大池化层,4个卷积层卷积核的大小依次为7×7、5×5、3×3和3×3,卷积操作的步长设置为2;所述全连接层连接在4个卷积层和4个最大池化层之后,全连接层后面连接RELU层和BN层,全连接层的输出维度为512维。


4.根据权利要求2所述的方法,其特征在于,所述目标跟踪模型的训练方法,包括:
获取目标视频帧序列数据集;
根据目标位置和尺寸,对数据集中的每一段目标视频帧序列中的每一帧图像进行裁剪,获得所有帧图像的目标区域图像和搜索区域图像,将其作为训练集;
基于获取的训练集,训练孪生网络模块,使跟踪目标在对应的相关性响应特征图上的位置获得响应最大值,获得响应最大值时的孪生网络模块参数;
固定所述孪生网络模块参数,单独训练循环神经网络模块,使其具备预测跟踪目标下一帧位置及尺度的能力;
解除对孪生网络模块参数的固定,联合训练孪生网络模块和循环神经网络模块,得到端到端的网络模型。


...

【专利技术属性】
技术研发人员:韩光刘耀明朱梦成艾岳川
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1