一种基于深度神经网络的单视觉目标跟踪算法及系统技术方案

技术编号：24012433 阅读：36 留言：0更新日期：2020-05-02 02:12

本发明专利技术涉及视觉目标跟踪领域，公开了一种基于深度神经网络的单视觉目标跟踪算法及系统；其基本原理为：由图像序列中首帧指定跟踪目标，在后续帧中，采用同一卷积网络提取目标特征与待搜索区域特征，进行卷积和前景‑背景区分网络获得目标位置，通过回归获得目标框的宽度和高度，从而获得目标所在的区域框；当跟踪目标的置信值低于一定程度时，认为可能出现目标丢失等问题，采取重搜索策略进行重新搜索，以保证目标的跟踪效果。对于不同尺寸的目标，将其尺寸输入尺寸调节模块，从而根据目标大小动态调节样本裁剪大小；以保证模板能够适应不同尺寸、不同运动特点的目标，提高跟踪性能。

A single vision target tracking algorithm and system based on depth neural network

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度神经网络的单视觉目标跟踪算法及系统
本专利技术涉及视觉目标跟踪领域，特别涉及一种基于深度神经网络的单视觉目标跟踪算法及系统。
技术介绍
目标跟踪是计算机视觉领域的重要研究内容，其在军事、工业等方面有广泛应用。目标跟踪的主要目标是能够准确、实时地获取指定目标的特征并在一段视频或图像序列中跟随指定目标。目标跟踪技术在军事领域、智能监控等领域有广泛应用，在侦查、监控等方面发挥了重要作用。目前较为普遍的目标跟踪方法包括校早年出现的相关滤波和近年出现的深度学习两大类。其中，深度学习算法采用深度神经网络进行目标特征的提取和匹配，在准确度和速度方面都有所提升。当前性能较为突出的算法之一为SiamRPN，其结合了深度网络的特征提取能力和目标检测的目标检测能力，在速度和准确度方面都有良好的表现。基于孪生网络的目标跟踪算法，其基本原理为：由第一帧指定跟踪目标后，将指定的目标裁剪为指定大小，作为样本Z，对于待跟踪的一帧(目标帧)，首先裁剪出目标可能存在的区域X，将Z和X经由同一特征提取网络，获得Z和X的特征，将Z和X的特征进行卷积获得目标响应图，由响应图最大位置确定目标中心位置；目标框的尺寸确定可由目标分割、多尺度测试或回归计算得出。然而该算法对于不同的图像序列，总是以固定大小裁剪样本帧，对于不同场景、不同尺寸的目标而言，其适应能力较差；较为固定的待搜索区域使得目标在快速运动时容易丢失，而在场景内出现类似目标时更容易进行错误的跟踪。若能改进样本和待搜索区域的裁剪策略，就能够适应不同尺寸、不同运动速度的物...

【技术保护点】
1.一种基于深度神经网络的单视觉目标跟踪算法，其特征在于，包括：/nS1：在原始图像序列首帧指定跟踪目标后，根据指定目标的尺寸占原始图像总画面的比例，对原始图像首帧进行裁剪，获取样本图像；/nS2：根据目标当前帧的运动速度，动态调整目标的搜索区域，裁剪出目标搜索区域；/nS3：提取样本图像和目标搜索区域的特征；/nS4：根据提取的样本图像特征和目标搜索区域特征，确定目标的中心位置；/nS5：根据提取的样本图像特征和目标搜索区域特征，确定目标的尺寸；/nS6：监督目标与样本图像的匹配程度，若目标与样本图像不匹配，则进行重新搜索。/n

【技术特征摘要】
1.一种基于深度神经网络的单视觉目标跟踪算法，其特征在于，包括：
S1：在原始图像序列首帧指定跟踪目标后，根据指定目标的尺寸占原始图像总画面的比例，对原始图像首帧进行裁剪，获取样本图像；
S2：根据目标当前帧的运动速度，动态调整目标的搜索区域，裁剪出目标搜索区域；
S3：提取样本图像和目标搜索区域的特征；
S4：根据提取的样本图像特征和目标搜索区域特征，确定目标的中心位置；
S5：根据提取的样本图像特征和目标搜索区域特征，确定目标的尺寸；
S6：监督目标与样本图像的匹配程度，若目标与样本图像不匹配，则进行重新搜索。

2.根据权利要求1所述的一种基于深度神经网络的单视觉目标跟踪算法，其特征在于，所述S1中，对首帧进行裁剪的具体方法包括：
设目标为(x1,y1,w,h)，原始图像大小为(xo,yo)，样本图像的裁剪大小计算由下式得出：

其中，x1,y1表示目标中心点坐标，w表示目标的宽度，h表示目标的高度；
μ表示目标的尺寸占原始图像大小的比例，Sz表示裁剪后的样本图像大小，Z表示样本图像。

3.根据权利要求2所述的一种基于深度神经网络的单视觉目标跟踪算法，其特征在于，所述样本图像的裁剪大小超出样本图像的固定尺寸时，对裁剪后的样本图像大小压缩至127*127像素；所述样本图像的裁剪大小不足样本图像的固定尺寸时，对裁剪后的样本图像大小补偿至127*127像素。

4.根据权利要求1或3所述的一种基于深度神经网络的单视觉目标跟踪算法，其特征在于，所述S2具体包括：
S21：设目标当前帧为第t帧，目标的搜索区域由第t-2帧至t-1帧的运动情况决定,目标在t-1帧的位置为(xt-1,yt-1),由t-2帧运动至t-1帧时的位移为(tx，ty)，则动态搜索区域窗表示为:

S22：裁剪待搜索的目标区域Xori；
S23：将动态搜索区域窗Xmask和待搜索的目标区域Xori进行卷积，得到最终的目标搜索区域X并进行裁剪，所述目标搜索区域X的计算公式如下：
X＝Xori*Xmask。

5.根据权利要求1所述的...

【专利技术属性】
技术研发人员：许廷发，殷钰莹，郭倩玉，吴凡，吴零越，张语珊，
申请(专利权)人：北京理工大学重庆创新中心，北京理工大学，
类型：发明
国别省市：重庆;50

全部详细技术资料下载我是这个专利的主人