一种基于分层卷积的视觉对象跟踪方法技术

技术编号:17516902 阅读:134 留言:0更新日期:2018-03-21 01:27
本发明专利技术中提出的一种基于分层卷积的视觉对象跟踪方法,其主要内容包括:分层卷积、相关性滤波器、粗略到精细的翻译估计、区域提案和模型更新,其过程为,先利用卷积层中的分层特征,使用双线性插值将每个特征图调整到更大的固定尺寸,接着将输入特征的循环版本归一化为高斯函数产生的软目标分数,并搜索目标对象响应图上的最大值,然后给定相关响应映射集,分层推断每一层的目标翻译,计算每个提案的置信度分数,保持目标外观的长期记忆,最后通过最小化输出误差来更新最优滤波器。本发明专利技术减轻了采样模糊度,减少了跟踪漂移,减少了由于照明变化、遮挡、背景杂交、突然运动以及目标移出视野等原因导致的错误,提高了识别的准确性和鲁棒性。

A method of visual object tracking based on stratified convolution

The present invention in a tracking method of hierarchical convolution based visual object, its main contents include: hierarchical convolution, correlation filter, coarse to fine translation estimation, proposals and update the regional model, the process is first, the hierarchical characteristic of convolution layer, using bilinear interpolation of each feature map is adjusted to the fixed the larger size of the target, then the input cycle soft fractional version of normalized feature is generated for the Gauss function, and search the target maximum response on the map, and then given a response mapping set, each layer of the hierarchical inference goal of translation, the calculation of confidence scores of each proposal, long-term memory to keep the target appearance. Finally, by minimizing the output error to update the optimal filter. The invention reduces the sampling ambiguity, reduces the tracking drift, and reduces the errors caused by illumination change, occlusion, background hybridization, sudden movement and the target moving out of the field of vision, so as to improve the accuracy and robustness of the recognition.

【技术实现步骤摘要】
一种基于分层卷积的视觉对象跟踪方法
本专利技术涉及视觉对象跟踪领域,尤其是涉及了一种基于分层卷积的视觉对象跟踪方法。
技术介绍
随着计算机性能的改善和视觉技术的发展,视觉对象的跟踪与检测越来越受到研究人员的关注。视觉对象跟踪将会在未来具有极为广阔的应用前景:如计算机人机交互,利用视觉跟踪识别人的手势、哑语,使残疾人或在特殊工作环境工作的人也能操作计算机;通过视觉跟踪获取外界环境的位置、形状与运动速度,从而用于无人驾驶车辆或各种移动式机器人的导航;利用视觉跟踪方法分析医学图像中物体的信息和运动参数,可以很好地给医生重点信息的提醒,辅助医生做出医疗诊断,甚至在临床手术中帮助医生进行定位和引导;还可以运用到虚拟场景的建立,实现人脸的合成和表情的合成,从而实现卡通画效果、油画效果等,甚至应用到电影和游戏中。然而,视觉跟踪的目标对象常常受到变形、突然运动、背景杂波和闭塞引起显着外观变化,使得视觉跟踪的准确性下降,同时外观变化导致空间分辨率降低,无法精确地定位目标。本专利技术提出了一种基于分层卷积的视觉对象跟踪方法,先利用卷积层中的分层特征,使用双线性插值将每个特征图调整到更大的固定尺寸,接着将输入特征的循环版本归一化为高斯函数产生的软目标分数,并搜索目标对象响应图上的最大值,然后给定相关响应映射集,分层推断每一层的目标翻译,计算每个提案的置信度分数,保持目标外观的长期记忆,最后通过最小化输出误差来更新最优滤波器。本专利技术减轻了采样模糊度,减少了跟踪漂移,减少了由于照明变化、遮挡、背景杂交、突然运动以及目标移出视野等原因导致的错误,提高了识别的准确性和鲁棒性。专利技术内容针对视觉跟踪的准确性下降的问题,本专利技术的目的在于提供一种基于分层卷积的视觉对象跟踪方法,先利用卷积层中的分层特征,使用双线性插值将每个特征图调整到更大的固定尺寸,接着将输入特征的循环版本归一化为高斯函数产生的软目标分数,并搜索目标对象响应图上的最大值,然后给定相关响应映射集,分层推断每一层的目标翻译,计算每个提案的置信度分数,保持目标外观的长期记忆,最后通过最小化输出误差来更新最优滤波器。为解决上述问题,本专利技术提供一种基于分层卷积的视觉对象跟踪方法,其主要内容包括:(一)分层卷积;(二)相关性滤波器;(三)粗略到精细的翻译估计;(四)区域提案;(五)模型更新。其中,所述的分层卷积,使用来自卷积神经网络(CNN)的卷积特征图,随着特征被传播到更深层次,不同类别的对象之间的语义歧视得到加强,而空间分辨率也逐渐降低;删除完全连接的层,因此显示出1×1像素的空间分辨率,并且仅利用卷积层中的分层特征。进一步地,所述的分层特征,由于使用池操作,随着CNN深度的增加,目标对象的空间分辨率逐渐降低;例如,VGGNet(神经网络结构)中池层5的卷积特征图为7×7像素,是224×224像素的输入图像大小的1/32;由于用这样低的空间分辨率准确地定位对象是不可行的,因此通过使用双线性插值将每个特征图调整到更大的固定尺寸来减轻这个问题;令h表示特征图,x表示上采样的特征图;第i个位置的特征向量为:其中,内插权重αik分别取决于i和k个相邻特征向量的位置。其中,所述的相关性滤波器,典型的相关跟踪器将输入特征的循环版本归一化为由高斯函数产生的软目标分数,并搜索目标对象响应图上的最大值;由于学习相关滤波器不需要二进制(硬阈值)采样,所以这些跟踪器有效地减轻了对大多数跟踪检测方法具有不利影响的采样模糊度问题;通过利用完整的一组移位样本,使用快速傅立叶变换(FFT)用相当大量的训练样本有效地训练相关滤波器;该数据增加有助于区分目标与其周围的背景,使用每个卷积层的输出作为多通道特征。进一步地,所述的卷积层,令x为尺寸M×N×D的特征向量的第l层,其中,M、N和D分别表示特征信道的宽度、高度和数量;这里将x(l)简洁地表示为x,忽略层索引l上的M、N和D;考虑沿着M和N维度的特征x的所有循环移位版本作为训练样本;每个移位样本xij,(i,j)∈{0,1,…,M-1}×{0,1,…,N-1}具有高斯函数标签其中,σ是内核宽度;目标中心有零位,因此有最高得分当位置(i,j)逐渐离开目标中心时,得分yij从1迅速衰减到零;通过解决以下最小化问题来学习相同大小的x的相关滤波器w:其中,λ是正则化参数(λ≥0),线性积被定义为由于标签yij被定义,因此不再需要硬阈值样本。进一步地,所述的傅立叶变换,令大写字母表示相应的傅里叶变换信号;第d个频道(d∈{1,…,D})的频域学习滤波器为:其中,Y是y=yij|(i,j)∈{{0,1,…,M-1}×{0,1,…,N-1}}的傅里叶变换形式;符号|表示复共轭;运算符⊙是哈达玛(元素)结果;给定下一帧中的图像补丁,将z表示为第l层上的特征向量,大小为M×N×D;然后,计算第l相关响应图:其中,运算符表示逆FFT变换;通过在尺寸为M×N的响应图f(z)上搜索具有最大值的位置,可以基于第l卷积层估计目标位置。其中,所述的粗略到精细的翻译估计,给定相关响应映射集{fl},分层推断每一层的目标翻译,即最后一层中具有最大值的位置被用作搜索较早层最大值的正则化;令fl(m,n)为第l层位置(m,n)的响应值,表示的位置fl的最大值;通过以下方式将目标定位在第l-1层:约束表示只搜索第l-1个相关响应图上的的r×r个相邻区域;来自最后层的响应值由正则化项μl加权,然后被传播到早期层的响应图;最终通过在最好的空间分辨率的层上最大化公式(5)来估计目标位置;实际上,跟踪结果对邻域搜索约束的参数r不敏感;这相当于计算来自多个层的响应图的加权平均,以推断目标位置,如上式所示。进一步地,所述的响应图,为了选择响应图的权重,考虑以下两个因素;首先,对于来自最后卷积层的响应图,使用较大的权重,因为它们捕获对外观变化是鲁棒的语义;将权重参数μl从第l层降低到第l-1层:μl∝2l-5(7)其中,l=5,4,3;其次,来自不同卷积层的相关响应图经常具有不一致的范围,例如,来自conv5-4层的响应图的最大值通常小于来自conv3-4层的响应图的最大值;通过将权重参数μl设置为与第l个响应映射fl的最大值成反比来解决这个问题:仅使用公式(8)时,硬权重是仅使用公式(7)时,μl=2l-5;软权重是同时使用公式(7)和公式(8);由于公式(8)相当于对每个响应图进行最大化归一化,所以重新排列公式(6)-(8)为软权重方案,以通过下式定位目标对象:其中,μl=2l-5。其中,所述的区域提案,提出的两种区域提案分别为缩小步长小且紧邻估计目标位置的建议Bs,以及具有大步长和整个图像的检测方案Bd;将Bs或Bd中的每个提案b表示为候选边界框(x,y,w,h),其中,(x,y)是中心轴,(w,h)是宽度和高度;为了计算每个提案b的置信度分数,学习具有保守学习率的另一个相关性滤波器,以保持目标外观的长期记忆;通过conv3-4层学习这个过滤器来编码更多的空间细节来区分小尺度变化;给定一个提案b,用g(b)表示长期记忆相关性滤波器的最大滤波响应。其中,所述的模型更新,通过最小化在时间t的所有跟踪结果的输出误差来更新第l层上的最优滤波器;为了获得更好的近似,使用移动平均值更新公式(3)中的相关滤波器本文档来自技高网...
一种基于分层卷积的视觉对象跟踪方法

【技术保护点】
一种基于分层卷积的视觉对象跟踪方法,其特征在于,主要包括分层卷积(一);相关性滤波器(二);粗略到精细的翻译估计(三);区域提案(四);模型更新(五)。

【技术特征摘要】
1.一种基于分层卷积的视觉对象跟踪方法,其特征在于,主要包括分层卷积(一);相关性滤波器(二);粗略到精细的翻译估计(三);区域提案(四);模型更新(五)。2.基于权利要求书1所述的分层卷积(一),其特征在于,使用来自卷积神经网络(CNN)的卷积特征图,随着特征被传播到更深层次,不同类别的对象之间的语义歧视得到加强,而空间分辨率也逐渐降低;删除完全连接的层,因此显示出1×1像素的空间分辨率,并且仅利用卷积层中的分层特征。3.基于权利要求书2所述的分层特征,其特征在于,由于使用池操作,随着CNN深度的增加,目标对象的空间分辨率逐渐降低;例如,VGGNet(神经网络结构)中池层5的卷积特征图为7×7像素,是224×224像素的输入图像大小的1/32;由于用这样低的空间分辨率准确地定位对象是不可行的,因此通过使用双线性插值将每个特征图调整到更大的固定尺寸来减轻这个问题;令h表示特征图,x表示上采样的特征图;第i个位置的特征向量为:其中,内插权重αik分别取决于i和k个相邻特征向量的位置。4.基于权利要求书1所述的相关性滤波器(二),其特征在于,典型的相关跟踪器将输入特征的循环版本归一化为由高斯函数产生的软目标分数,并搜索目标对象响应图上的最大值;由于学习相关滤波器不需要二进制(硬阈值)采样,所以这些跟踪器有效地减轻了对大多数跟踪检测方法具有不利影响的采样模糊度问题;通过利用完整的一组移位样本,使用快速傅立叶变换(FFT)用相当大量的训练样本有效地训练相关滤波器;该数据增加有助于区分目标与其周围的背景,使用每个卷积层的输出作为多通道特征。5.基于权利要求书4所述的卷积层,其特征在于,令x为尺寸M×N×D的特征向量的第l层,其中,M、N和D分别表示特征信道的宽度、高度和数量;这里将x(l)简洁地表示为x,忽略层索引l上的M、N和D;考虑沿着M和N维度的特征x的所有循环移位版本作为训练样本;每个移位样本xij,(i,j)∈{0,1,…,M-1}×{0,1,…,N-1}具有高斯函数标签其中,σ是内核宽度;目标中心有零位,因此有最高得分当位置(i,j)逐渐离开目标中心时,得分yij从1迅速衰减到零;通过解决以下最小化问题来学习相同大小的x的相关滤波器w:其中,λ是正则化参数(λ≥0),线性积被定义为由于标签yij被定义,因此不再需要硬阈值样本。6.基于权利要求书4所述的傅立叶变换,其特征在于,令大写字母表示相应的傅里叶变换信号;第d个频道(d∈{1,…,D})的频域学习滤波器为:其中,Y是y=yij|(i,j)∈{{0,1,…,M-1}×{0,1,…,N-1}}的傅里叶变换形式;符号|表示复共轭;运算符⊙是哈达玛(元素)结果;给定下一帧中的图像补丁,将z表示为第l层上的特征向量,大小为M×N×D;然后,计算第l相关响应图:其中,运算符表示逆FFT变换;通过在尺寸为M×N的响应图f...

【专利技术属性】
技术研发人员:夏春秋
申请(专利权)人:深圳市唯特视科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1