当前位置: 首页 > 专利查询>上海大学专利>正文

一种基于PVANET神经网络的目标跟踪方法技术

技术编号:19594827 阅读:27 留言:0更新日期:2018-11-28 05:22
本发明专利技术提出了一种基于PVANET神经网络的目标跟踪方法。该方法不再使用Edgeboxes算法进行不同尺度的候选样本的提取,而是改用PVANET神经网络进行深度特征提取,并将浅层网络输出具有的空间信息的深度特征和深层网络输出的具有的判别能力的深度特征进行融合,在融合后的深度特征的基础上,利用PVANET神经网络中的RPN层进行不同尺度的候选样本的提取,并同时输出候选样本所对应的融合后的深度特征。该方法在利用神经网络中具有强大表征能力的深度特征的基础上,进行特征融合和不同尺度的候选样本的提取,从而提高目标跟踪精度。该方法是一种鲁棒性的跟踪算法,能在不同的跟踪场景中取得不错的效果。

【技术实现步骤摘要】
一种基于PVANET神经网络的目标跟踪方法
本专利技术属于计算机视觉
,具体涉及一种基于PVANET神经网络的目标跟踪方法。
技术介绍
目标跟踪由于其在行为分析、车辆导航、人机交互、医学成像、视频监控等众多领域都有着广阔的应用,从而成为计算机视觉技术最活跃的研究之一。目标跟踪是指在给定视频第一帧中的目标位置,对之后的每一帧进行目标定位。目标跟踪的核心问题紧跟随着时间不断变化的目标。尽管近年来在国内外学者的不断研究下,目标跟踪算法得到了迅速发展,但在光照变化剧烈、目标快速运动、部分遮挡等情况下仍然无法取得很好效果。近年来,国内外学者提出了多种跟踪算法,主要可以分成两类:一类是基于对于目标本身进行描述和刻画的生成式模型;另一类旨在将目标和背景分离开的判别式模型。生成式模型重点在于建立目标外观模型的表征,虽然构建有效的外观模型以处理跟踪中的各种具有挑战性的情况至关重要,但是与此同时,也会增加很大的计算复杂度,并且还会丢弃了可用于更好地将对象与背景分离的目标区域周围的有用信息,例如词典学习算法、稀疏编码算法、PCA等;判别式模型将跟踪问题转换为目标和背景的二分类问题,即把跟踪的目标作为前景,利用在线学习或离线训练的判断器来区分前景目标和背景,从而得到前景目标的位置。在进行判断前往往会进行特征提取,以作为判断依据提高判断的精确度,但是这也会导致有大量的候选样本需要进行特征提取,使得难以达到实时性,例如Struck、MIL等算法。生成式模型着眼于对目标本身的刻画,忽略背景信息,在目标自身变化剧烈或者被遮挡时容易产生漂移。判别式模型通过训练分类器来区分目标和背景(即从背景中区分目标)。判别式方法因为显著区分背景和前景的信息,表现更为鲁棒,在目标跟踪领域占据主流地位。但是,对于跟踪算法而言,最重要的两个指标是实时性与精确度。由于传统判别式跟踪算法在进行判断前往往会进行特征提取,以作为判断依据提高判断的精确度,但也会导致有大量的候选样本需要进行特征提取,从而很难达到实时性。为了解决这一问题,2010年MOSSE算法将相关滤波引入到目标跟踪中,从而使得跟踪算法速度达到高速状态。相关滤波是一种传统的信号处理方法,其描述了两个样本之间的相似程度。但是由于MOSSE算法采用的是随机采样,从而导致正负训练数目不足而使得精度较低。2012年CSK算法基于MOSSE算法通过建立循环位移的结构将目标进行稠密采样,以此增加正负样本的数目,以此解决目标跟踪之中训练样本不足的问题。除此之外,通过对于这些样本进行循环位移的处理,将对目标样本的计算转化到频率域中的求解,通过使用快速傅里叶变换的方法,大大地提高目标跟踪的效率。然而CSK算法采用的是单通道灰度特征,在特征表征上不够鲁棒。针对以上问题,2015年CN算法改用多通道的颜色特征,KCF算法改用多通道HOG特征,使得精度得到提高。但是无论是CN算法、KCF算法在卷积求解中使用的固定大小的模板,从而导致模型没有尺度自适应的功能,从而难以应对目标尺度变化的情况。SAMF算法通过多尺度采样获取7种尺度候选样本来使得模型具有尺度适应性。DSST算法在原本的位置滤波器基础上增加了一个尺度滤波器,通过多尺度采样获取31种尺度训练样本来训练尺度滤波器。FDSST算法在DSST算法的基础上进行改进增加其跟踪速度。SKCF算法在KCF算法的基础上,引入稀疏光流法用于尺度变化应对。IBCCF算法在KCF算法的基础上,增加4个边界相关滤波器以用于目标的4个边界。KCFDP算法在KCF算法对中心位置定位的基础,引入Edgeboxes算法进行不同尺度的候选样本的提取,从而来应对目标尺度变化的情况。但是SAMF算法、DSST算法多尺度采样所得的候选样本都是固定长宽比的;SKCF算法在利用稀疏光流法处理尺度变化时,其假定了目标的长宽比是不变;因而,SAMF算法、DSST算法、SKCF算法难以处理长宽比变化的目标尺度变化问题。IBCCF算法、KCFDP算法虽然能处理长宽比变化的目标尺度变化问题,但是其采用的都是手工特征,对目标的表征能力存在一定局限性,因而目标跟踪效果并不是很优异。在现有的跟踪技术方案当中,基于相关滤波器跟踪方法利用目标样本进行循环位移以及频域运算等处理,从而大大地提高了其跟踪效率。但是,目前跟踪算法目标跟踪算法并不能很好地应对长宽比变化的目标尺度变化的情况,这一局限极大地限制了其原本具有的潜力。针对目前目标跟踪算法不能很好地应对长宽比变化的目标尺度变化的情况,需要设计一种跟踪算法,使其能在利用神经网络中具有强大表征能力的深度特征的基础上,很好应对长宽比变化的目标尺度变化,从而使得跟踪精度得到提高。
技术实现思路
有鉴于此,本专利技术提出了一种基于PVANET神经网络的目标跟踪方法。该方法不再使用Edgeboxes算法进行不同尺度的候选样本的提取,而是改用PVANET神经网络进行深度特征提取,并将浅层网络输出具有的空间信息的深度特征和深层网络输出的具有的判别能力的深度特征进行融合,在融合后的深度特征的基础上,利用PVANET神经网络中的RPN层进行不同尺度的候选样本的提取,并同时输出候选样本所对应的融合后的深度特征。该方法在利用神经网络中具有强大表征能力的深度特征的基础上,进行特征融合和不同尺度的候选样本的提取,从而提高目标跟踪精度。该方法能在利用神经网络中具有强大表征能力的深度特征的基础上,很好应对长宽比变化的目标尺度变化,从而解决了目前目标跟踪算法不能很好地应对长宽比变化的目标尺度变化的问题。一种基于PVANET神经网络的目标跟踪方法,具体步骤包括:步骤一、对于第一帧图像t=1,跟踪任务给予的第一帧跟踪目标的中心位置(xt,yt)以及跟踪目标区域大小信息(lt,ht),对跟踪目标区域进行一定比例的扩大(lp,t,hp,t)=α(lt,ht),根据目标中心位置(xt,yt)以及扩大后的跟踪目标区域大小(lp,t,hp,t)在该帧图像中进行采样,得到训练样本;其中xt为跟踪目标中心位置的横坐标,yt为跟踪目标中心位置的纵坐标,lt为原跟踪目标区域的长度,ht为原跟踪目标区域的宽度,α为扩大比率,lp,t为扩大后跟踪目标区域的长度,hp,t为扩大后跟踪目标区域的宽度;步骤二、对于在第一帧图像中采样得到的训练样本T,将其输入到PVANET神经网络中,提取出PVANET神经网络中的Convf层输出的分类特征其中ZT表示PVANET神经网络中通道数为512的Convf层输出的分类特征,表示PVANET神经网络中的Convf层输出的分类特征ZT中第n维特征;步骤三、将训练样本T经过PVANET神经网络后提取得到的Convf层输出的分类特征用于相关滤波器参数的计算;步骤四、对于下一帧图像t+1,根据上一帧跟踪目标中心位置(xt,yt)以及扩大后的跟踪目标区域大小(lp,t,hp,t),根据目标中心位置(xt,yt)以及扩大后的跟踪目标区域大小(lp,t,hp,t)在该帧图像中进行采样,得到候选区域样本P;步骤五、对于采样得到的候选区域样本P,将其输入到PVANET神经网络中,提取出PVANET神经网络中的RPN层输出的离上一帧跟踪目标中心位置(xt,yt)最近的5个候选框,并对这五个候选框依据步骤一中的扩大比本文档来自技高网
...

【技术保护点】
1.一种基于PVANET神经网络的目标跟踪方法,其特征在于,具体步骤包括:步骤一、对于第一帧图像t=1,跟踪任务给予的第一帧跟踪目标的中心位置(xt,yt)以及跟踪目标区域大小信息(lt,ht),对跟踪目标区域进行一定比例的扩大(lp,t,hp,t)=α(lt,ht),根据目标中心位置(xt,yt)以及扩大后的跟踪目标区域大小(lp,t,hp,t)在该帧图像中进行采样,得到训练样本;其中xt为跟踪目标中心位置的横坐标,yt为跟踪目标中心位置的纵坐标,lt为原跟踪目标区域的长度,ht为原跟踪目标区域的宽度,α为扩大比率,lp,t为扩大后跟踪目标区域的长度,hp,t为扩大后跟踪目标区域的宽度;步骤二、对于在第一帧图像中采样得到的训练样本T,将其输入到PVANET神经网络中,提取出PVANET神经网络中的Convf层输出的分类特征

【技术特征摘要】
1.一种基于PVANET神经网络的目标跟踪方法,其特征在于,具体步骤包括:步骤一、对于第一帧图像t=1,跟踪任务给予的第一帧跟踪目标的中心位置(xt,yt)以及跟踪目标区域大小信息(lt,ht),对跟踪目标区域进行一定比例的扩大(lp,t,hp,t)=α(lt,ht),根据目标中心位置(xt,yt)以及扩大后的跟踪目标区域大小(lp,t,hp,t)在该帧图像中进行采样,得到训练样本;其中xt为跟踪目标中心位置的横坐标,yt为跟踪目标中心位置的纵坐标,lt为原跟踪目标区域的长度,ht为原跟踪目标区域的宽度,α为扩大比率,lp,t为扩大后跟踪目标区域的长度,hp,t为扩大后跟踪目标区域的宽度;步骤二、对于在第一帧图像中采样得到的训练样本T,将其输入到PVANET神经网络中,提取出PVANET神经网络中的Convf层输出的分类特征其中ZT表示PVANET神经网络中通道数为512的Convf层输出的分类特征,表示PVANET神经网络中的Convf层输出的分类特征ZT中第n维特征;步骤三、将训练样本T经过PVANET神经网络后提取得到的Convf层输出的分类特征用于相关滤波器参数的计算;步骤四、对于下一帧图像t+1,根据上一帧跟踪目标中心位置(xt,yt)以及扩大后的跟踪目标区域大小(lp,t,hp,t),根据目标中心位置(xt,yt)以及扩大后的跟踪目标区域大小(lp,t,hp,t)在该帧图像中进行采样,得到候选区域样本P;步骤五、对于采样得到的候选区域样本P,将其输入到PVANET神经网络中,提取出PVANET神经网络中的RPN层输出的离上一帧跟踪目标中心位置(xt,yt)最近的5个候选框,并对这五个候选框依据步骤一中的扩大比率α进行背景信息的添加,而后进行采样并变形至步骤一中的跟踪目标区域大小(lp,t,hp,t),从而构成的候选样本集X=(X1X2…X5),以及这5个候选样本构成的候选样本集X所对应的Convf层输出的分类特征其中表示第一个候选样本X1对应PVANET神经网络中的Convf层中输出的通道数为512的分类特征,即步骤六、将候选样本集每个候选样本所对应的Convf层输出的分类特征用于响应图的计算,最终确定该帧跟踪目标的中心位置(xt+1,yt+1)和跟踪目标区域大小(lt+...

【专利技术属性】
技术研发人员:罗均高建焘李小毛谢少荣彭艳
申请(专利权)人:上海大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1