当前位置: 首页 > 专利查询>蔡晓刚专利>正文

一种基于深度特征融合与自适应相关滤波的视频目标实时跟踪方法及系统技术方案

技术编号:24855047 阅读:37 留言:0更新日期:2020-07-10 19:08
本发明专利技术公开了一种基于深度特征融合与自适应相关滤波的视频目标实时跟踪方法及系统,包括特征提取模块、特征融合模块、相关滤波模块。特征提取模块使用轻量化网络模型提取多层深度特征,保证了目标跟踪任务的实时性。特征融合模块针对独立提取的多层特征对目标的表征不够完整,提出典型相关分析的多层深度特征融合策略。提高了对目标的表达能力、对目标与背景的区分能力,降低了特征冗余性,减少了后续相关滤波器的计算量。相关滤波模块针对目标跟踪任务中存在的目标形变、目标被遮挡、目标移出视野、目标旋转等挑战带来的跟踪器漂移问题,提出了基于响应值离散度分析的相关滤波器更新策略,来自适应地进行滤波器模板更新,缓解了上述具体问题。

【技术实现步骤摘要】
一种基于深度特征融合与自适应相关滤波的视频目标实时跟踪方法及系统
本专利技术涉及目标跟踪
,具体涉及一种基于深度特征融合与自适应相关滤波的视频目标实时跟踪方法及系统。
技术介绍
视频目标跟踪任务通过在首帧初始化目标位置,之后使用跟踪算法逐帧对视频帧进行分析处理,预测目标的位置。近年来,基于深度学习与基于相关滤波的方法在视频目标跟踪领域中引起了广泛的关注,促使了目标跟踪性能的提高。CF2[1]从较深的VGG-16中独立提取多层深度特征,送入后续相关滤波器进行预测计算,开创了深度学习与相关滤波结合的先河。但是,由于使用了更复杂的特征提取模型,因此速度也随之降低。对于具有实时跟踪需求的任务,需要在性能和速度之间进行权衡。从深度神经网络模型中提取特征是耗时最长的步骤,最直接的提速方法为使用轻量化的深度神经网络模型。但是从轻量化模型中提取的多层深度特征对目标的表征能力不足、对背景与目标的区分能力有限、并且特征之间存在着冗余,产生了额外的计算量。同时,目标跟踪任务往往会面临目标形变、目标被遮挡、目标移出视野与目标旋转等具体问题,使用现有相关滤波算法易发生跟踪器漂移甚至跟踪失败。
技术实现思路
专利技术目的:一个目的是提供一种基于深度特征融合与自适应相关滤波的视频目标实时跟踪方法,以解决目前深度学习与相关滤波结合的目标跟踪方法存在的上述问题。进一步的目的是提供一种实现上述方法的系统。技术方案:一种基于深度特征融合与自适应相关滤波的视频目标实时跟踪方法,包括以下步骤:步骤1、使用轻量化网络模型提取原始的多层深度特征,多层特征由深层至浅层分别具有目标的语义信息和纹理信息;步骤2、使用基于典型相关分析的多层深度特征融合策略,得到具有高表征能力、低冗余的典型判别特征;步骤3、使用基于响应值离散度分析的相关滤波器更新策略,对多层的滤波器响应图的离散程度进行计算,以适应目标的外观变化。在进一步的实施例中,所述步骤1进一步包括:选取轻量化的VGG-M-2048深度神经网络作为深度特征提取器,从网络中提取特征时,去除最后三层全连接层,仅提取卷积层的特征,用于输入特征融合模块。VGG-M网络模型在ImageNet大规模图像分类数据集上进行预训练。在跟踪过程中删除参数量大的所有全连接层,仅保留前五组卷积层进行特征提取。删除全连接层的轻量化网络模型能够大大减小深度特征提取时间,提高跟踪速度。在进一步的实施例中,所述步骤2进一步包括:提出基于典型相关分析的多层深度特征融合策略:将从网络中独立提取的两层深度特征映射到联合特征空间,投影成为特征向量,之后使用典型相关分析的方法计算两组特征向量的最大相关性,根据相关性生成两组典型变量,之后将其点对点融合相加,再映射回原特征空间,形成一组典型判别特征,最后送入后续相关滤波器进行计算。经过特征融合的典型判别特征具有更强的目标表达能力、更强的目标背景区分能力以及更低的冗余性,在提高运动目标表征能力的同时,还能够减少后续相关滤波器的计算量。在进一步的实施例中,所述步骤3进一步包括:提出基于响应值离散度分析的相关滤波器更新策略:在逐帧跟踪的过程中计算出当前帧的相关滤波器响应图,根据响应图的信息定义变异系数,之后对变异系数在时间维度上做归一化,求取变异系数的相对偏差;当相对偏差大于阈值时,认为当前帧跟踪预测结果可靠,可以使用当前帧更新滤波器模板;当相对偏差小于阈值时,认为当前帧跟踪预测结果不可靠,仍维持历史可靠帧的滤波器模板。该策略能够对跟踪过程中目标是否遇到挑战进行判别,以更合理的方式自适应地更新滤波器模板,尤其能够缓解由目标形变、目标被遮挡、目标移出视野、目标旋转等挑战带来的跟踪器漂移问题。在进一步的实施例中,步骤2进一步包括:步骤2.1、在特征提取模块得到了第三、四层卷积特征C3,C4∈R13×13×512,将两组原始特征投影到二维,称为U,V,其中U,V∈R169×512;下面考虑两组线性变换,将U,V映射到联合特征空间,得到U*和V*,其中:U*=ATUV*=BTV步骤2.2、使用皮尔逊相关系数来测量U*和V*之间的相关性,找到矩阵A与B的最优解以最大化相关系数:其中cov(*)表示协方差,var(*)表示方差;步骤2.3、定义U,V的协方差矩阵:步骤2.4、将典型相关分析的目标就可以转化为一个凸优化问题:s.t.ATSUUB=1,BTSVVA=1步骤2.5、使用拉格朗日乘子法来求解上述优化问题,得到下式:步骤2.6、对上式进行特征分解,找到最大特征值并求平方根,得到对应于最大特征值矩阵的特征向量A和B,即U和V的变换矩阵;其中λ表示对角特征值矩阵,具有d个非零特征值,且d=Rank(SUV);得到A、B之后,返回步骤2.1求得典型变量U*、V*;将典型变量进行点对点的相加,在联合特征空间中融合:Z=U*+V*其中Z,U*,V*∈R169×d,最后将Z映射回原始特征空间,得到典型判别特征F,其中F∈R13×13×d,至此完成特征融合。在进一步的实施例中,步骤3进一步包括:步骤3.1、在逐帧跟踪的过程中,计算出当前帧的相关滤波器响应图,根据响应图的信息,定义变异系数其中,σt是第t帧滤波器响应图的方差,μt是第t帧滤波器响应图的均值;步骤3.2、对变异系数在时间维度上做归一化,求取相对偏差其中,代表t帧之前的所有帧的变异系数均值。一种基于深度特征融合与自适应相关滤波的视频目标实时跟踪系统,包括以下模块:用于更新多层核相关滤波器的相关滤波模块;用于输入后续的核相关滤波器的特征融合模块;以及用于输入特征融合模块的特征提取模块。在进一步的实施例中,所述特征提取模块使用轻量化网络模型提取原始的多层深度特征,多层特征由深层至浅层分别具有目标的语义信息和纹理信息;所述特征融合模块使用基于典型相关分析的多层深度特征融合策略,得到具有高表征能力、低冗余的典型判别特征;所述相关滤波模块使用基于响应值离散度分析的相关滤波器更新策略,对多层的滤波器响应图的离散程度进行计算,以适应目标的外观变化,从而自适应地更新多层核相关滤波器。在进一步的实施例中,所述特征提取模块进一步选取轻量化的VGG-M-2048深度神经网络作为深度特征提取器,从网络中提取特征时,去除最后三层全连接层,仅提取卷积层的特征,用于输入特征融合模块;所述特征融合模块进一步提出基于典型相关分析的多层深度特征融合策略;将从网络中独立提取的两层深度特征映射到联合特征空间,投影成为特征向量,之后使用典型相关分析的方法计算两组特征向量的最大相关性,根据相关性生成两组典型变量,之后将其点对点融合相加,再映射回原特征空间,形成一组典型判别特征,最后送入后续相关滤波器进行计算;在特征提取模块得到了第三、四层卷积特征C3,C4∈R13×13×512,将两组原本文档来自技高网...

【技术保护点】
1.一种基于深度特征融合与自适应相关滤波的视频目标实时跟踪方法,其特征是包括以下步骤:/n步骤1、使用轻量化网络模型提取原始的多层深度特征,多层特征由深层至浅层分别具有目标的语义信息和纹理信息;/n步骤2、使用基于典型相关分析的多层深度特征融合策略,得到具有高表征能力、低冗余的典型判别特征;/n步骤3、使用基于响应值离散度分析的相关滤波器更新策略,对多层的滤波器响应图的离散程度进行计算,以适应目标的外观变化。/n

【技术特征摘要】
1.一种基于深度特征融合与自适应相关滤波的视频目标实时跟踪方法,其特征是包括以下步骤:
步骤1、使用轻量化网络模型提取原始的多层深度特征,多层特征由深层至浅层分别具有目标的语义信息和纹理信息;
步骤2、使用基于典型相关分析的多层深度特征融合策略,得到具有高表征能力、低冗余的典型判别特征;
步骤3、使用基于响应值离散度分析的相关滤波器更新策略,对多层的滤波器响应图的离散程度进行计算,以适应目标的外观变化。


2.根据权利要求1所述的一种基于深度特征融合与自适应相关滤波的视频目标实时跟踪方法,其特征在于,步骤1进一步包括:
选取轻量化的VGG-M-2048深度神经网络作为深度特征提取器,从网络中提取特征时,去除最后三层全连接层,仅提取卷积层的特征,用于输入特征融合模块。


3.根据权利要求1所述的一种基于深度特征融合与自适应相关滤波的视频目标实时跟踪方法,其特征在于,步骤2进一步包括:
提出基于典型相关分析的多层深度特征融合策略:将从网络中独立提取的两层深度特征映射到联合特征空间,投影成为特征向量,之后使用典型相关分析的方法计算两组特征向量的最大相关性,根据相关性生成两组典型变量,之后将其点对点融合相加,再映射回原特征空间,形成一组典型判别特征,最后送入后续相关滤波器进行计算。


4.根据权利要求1所述的一种基于深度特征融合与自适应相关滤波的视频目标实时跟踪方法,其特征在于,步骤3进一步包括:
提出基于响应值离散度分析的相关滤波器更新策略:在逐帧跟踪的过程中计算出当前帧的相关滤波器响应图,根据响应图的信息定义变异系数,之后对变异系数在时间维度上做归一化,求取变异系数的相对偏差;当相对偏差大于阈值时,认为当前帧跟踪预测结果可靠,可以使用当前帧更新滤波器模板;当相对偏差小于阈值时,认为当前帧跟踪预测结果不可靠,仍维持历史可靠帧的滤波器模板。


5.根据权利要求3所述的一种基于深度特征融合与自适应相关滤波的视频目标实时跟踪方法,其特征在于,步骤2进一步包括:
步骤2.1、在特征提取模块得到了第三、四层卷积特征C3,C4∈R13×13×512,将两组原始特征投影到二维,称为U,V,其中U,V∈R169×512;下面考虑两组线性变换,将U,V映射到联合特征空间,得到U*和V*,其中:
U*=ATU
V*=BTV
步骤2.2、使用皮尔逊相关系数来测量U*和V*之间的相关性,找到矩阵A与B的最优解以最大化相关系数:



其中cov(*)表示协方差,var(*)表示方差;
步骤2.3、定义U,V的协方差矩阵:



步骤2.4、将典型相关分析的目标就可以转化为一个凸优化问题:



s.t.ATSUUB=1,BTSVVA=1
步骤2.5、使用拉格朗日乘子法来求解上述优化问题,得到下式:






步骤2.6、对上式进行特征分解,找到最大特征值并求平方根,得到对应于最大特征值矩阵的特征向量A和B,即U和V的变换矩阵;其中λ表示对角特征值矩阵,具有d个非零特征值,且d=Rank(SUV);得到A、B之后,返回步骤2.1求得典型变量U*、V*;将典型变量进行点对点的相加,在联合特征空间中融合:
Z=U*+V*
其中Z,U*,V*∈R169×d,最后将Z映射回原始特征空间,得到典型判别特征F,其中F∈R13×13×d,至此完成特征融合。


6.根据权利要求4所述的一种基于深度特征融合与自适应相关滤波的视频目标实时跟踪方法,其特征在于,步骤3进一步包括:
步骤3.1、在逐帧跟踪的过程中,计算出当前帧的相关滤波器响应图,根据响应图的信息,定义变异系数
其中,σt是第t帧滤波器响应图的方差,μt是第t帧滤波器响应图的均值;
步骤3.2、对变异系数在时间维度上做归一...

【专利技术属性】
技术研发人员:蔡晓刚
申请(专利权)人:蔡晓刚
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1