当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于多层语义特征与多响应图融合的目标跟踪方法技术

技术编号:23401504 阅读:18 留言:0更新日期:2020-02-22 13:37
本发明专利技术公开了一种基于多层语义特征与多响应图融合的目标跟踪方法,包括:将提取的搜索图像块的多层语义特征分别输入不同分支的卷积层中生成多个响应图,并进行多响应图的融合,融合后得到最终响应图作为回归网络模型的输出;训练、更新模型的参数,将搜索图像块与对应的训练标记图组成训练样本对,送入模型中,直到预定义的损失函数小于设定的阈值或迭代步数超过上限;利用模型进行在线检测,裁剪出与前一帧图像块同样大小的搜索图像块,作为训练好的模型的输入,进行多层语义特征提取与多响应图融合,通过搜索最终响应图的最大值,确定预测的目标位置;提取多个不同尺寸的搜索图像块,通过比较回归响应结果的最大值,确定对应的目标尺寸。

A target tracking method based on multi-layer semantic features and multi response graph fusion

【技术实现步骤摘要】
一种基于多层语义特征与多响应图融合的目标跟踪方法
本专利技术涉及目标跟踪领域,尤其涉及一种基于多层语义特征与多响应图融合的目标跟踪方法。
技术介绍
视觉目标跟踪的目的是在视频的每一帧中找到一个紧紧包围目标物体的边界框,它是仅在第一帧中给出目标的边界框时估计视频中未知目标物体位置的问题,这是计算机视觉领域的基本问题之一。与目标检测相比,必须检测已知类中的多个对象并将其定位在单个图像中,由于视频的特性,例如:运动模糊、照明变化、相机和物体的运动、变形和与物体的相互作用(遮挡、物体之间的视觉相似性等),使得视频中的视觉目标跟踪是更具挑战性的任务。此外,由于大多数视觉目标跟踪应用,例如:自动驾驶、视频监视,需要实时跟踪,因此视觉目标跟踪器必须比视频的帧速率更快地操作。基于相关滤波器的跟踪方法[1]-[5]由于其计算效率和有竞争力的性能而引起了人们的关注,该方法只需要很低的计算量就可以在傅里叶域中学习相关滤波器。Bolme等人[1]提出了误差最小平方和滤波器,Henriques等人[3]提出了具有多通道特征的核化相关滤波器(KCFs),Hong等人[4]提出了使用短期相关跟踪器和长期存储器的组合系统。为了克服手工特征的不充分表现,在相关滤波器[6,7]中使用了深度卷积特征,从而实现了最先进的性能。然而,这些方法需要大量的计算负荷,因为需要使用深度卷积特征来训练多个按比例缩放的滤波器。基于相关滤波器的跟踪器虽然实现了可区分的性能,然而傅立叶域中的相关优化会引起边界效应。与传统的基于相关滤波器的跟踪器不同,深度回归跟踪器试图通过空间域中的梯度下降来获得近似解。它们将相关滤波器表示为卷积运算并构建单通道输出卷积层,像在典型的卷积神经网络中所使用的一样。最近的跟踪器[8,9]使用深度回归模型,与相关滤波器跟踪器相比,性能得到显著改善。Chen等人[9]引入了用于视觉目标跟踪的单层回归模型,并利用一种新颖的自动难例挖掘方法来促进回归模型的训练。然而,目前基于深度回归模型的方法,虽然利用了深度特征表征目标物体,但是没有充分利用不同层语义特征对目标表示的差别,从而不能很好地将目标从背景之中区分开;同时,通过搜索单一响应图的最大值,在面对目标被遮挡、扭曲旋转等挑战时容易出现跟踪漂移的情况,因此模型不够鲁棒。
技术实现思路
本专利技术提供了一种基于多层语义特征与多响应图融合的目标跟踪方法,本专利技术避免了低水平特征表示的不充分性,充分利用深度特征的多层语义信息和判别信息,可以通过多层语义特征与多响应图融合提高跟踪的准确度,详见下文描述:一种基于多层语义特征与多响应图融合的目标跟踪方法,所述方法包括:将提取的多层语义特征分别输入不同分支的卷积层中生成多个响应图,并进行多响应图的融合,融合后得到最终响应图作为回归网络模型的输出;训练、更新回归网络模型的参数,回归网络模型的训练标记图由高斯函数生成,将搜索图像块与训练标记图组成的训练样本对,送入回归网络模型中,直到预定义的损失函数小于设定的阈值或迭代步数超过上限,回归网络型训练结束;利用训练好的回归网络模型进行在线检测,裁剪出与前一帧图像块同样大小的搜索图像块,将此裁剪的搜索图像块作为训练好的回归网络模型的输入,进行多层语义特征提取与多响应图融合,通过搜索最终响应图的最大值,作为回归响应结果,确定预测的目标物体的位置;提取多个不同尺寸的搜索图像块,分别送入回归网络模型中,对应得到多个最终响应图,通过比较回归响应结果的最大值,确定对应的目标尺寸。其中,所述提取的多层语义特征具体为:首先进行回归网络模型的初始化,回归网络模型的输入为一个搜索图像块,输出为回归响应图;使用深度网络VGG16中的不同层对搜索图像块进行多层语义特征提取。进一步地,所述将提取的多层语义特征分别输入不同分支的卷积层中生成多个响应图,并进行多响应图的融合具体为:将深度网络VGG16中的conv4_3和conv5_3这两个语义特征进行不同方式的组合,分别为二者相加得到特征F1、conv5_3本身作为特征F2、二者通过按通道方向串联的方式组合得到特征F3;多响应图融合是特征F1、F2、F3分别输入三个卷积层,分别得到三个响应图R1、R2、R3;R1与R2通过双线性融合得到P1,R2与R3也通过响应图融合得到P2,最后P1与P2相加得到最终响应图。其中,所述训练、更新回归网络模型的参数,回归网络模型的训练标记图由高斯函数生成具体为:通过梯度下降法迭代训练回归网络模型,根据搜索图像块,提取样本特征X,并通过高斯函数生成相应的训练标记图Y;通过求解预定义的损失函数Lreg的最小化问题来训练卷积层的网络参数W。进一步地,所述通过比较回归响应结果的最大值,确定对应的目标尺寸具体为:提取多个不同尺寸的搜索图像块,通过比较生成响应图的最大值,对目标的尺寸进行平滑的估计;将多个搜索图像块缩放至与初始帧的搜索图像块大小一致,以匹配回归网络模型,将缩放后的搜索图像块输入到回归网络模型中,生成多个响应图,通过比较每个响应图的最大值来确定当前帧的目标尺寸,然后,以平滑的方式更新目标物体的比例。所述方法还包括:实时更新跟踪器。本专利技术提供的技术方案的有益效果是:1、本专利技术避免了低水平手工特征表示的不充分性,充分利用深度特征的多层语义信息,更好地区分开目标物体和背景,提高跟踪的准确性;2、本专利技术的多层特征分别经过卷积层预测响应图,从而形成多支路的网络并进行多响应图融合,形成相应图的信息交互和位置关联,提高跟踪的鲁棒性。附图说明图1为一种基于多层语义特征与多响应图融合的目标跟踪方法的流程图;图2为在OTB2013数据集上得到的准确率图;图3为在OTB2013数据集上得到的成功率图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面对本专利技术实施方式作进一步地详细描述。为了解决以上问题,需要能够全面、自动、准确提取目标物体的特征,并根据响应图进行目标物体跟踪的方法。研究表明:深度网络的低层次特征含有目标物体更多的细节信息,而高层次特征含有目标物体更多的语义信息,可以通过结合多层次的语义信息和多支路响应图融合,提高目标物体跟踪的准确性。实施例1本专利技术实施例提出了一种基于多层语义特征与多响应图融合的目标跟踪方法,参见图1,该方法包括以下步骤:101:首先进行回归网络模型的初始化,回归网络模型的输入为一个搜索图像块,输出为回归响应图;其中,整个回归网络模型包括:多语义特征提取和多响应图融合。根据第一帧中给定的目标位置和尺寸,裁剪得到以目标为中心的搜索图像块作为模型输入。102:使用深度网络VGG16中的不同层对步骤101中得到的搜索图像块进行多层语义特征提取;103:由步骤102中提取的多层语义特征分别进入不同分支的卷积层中生成多个响应图,并进行多响应图的融合,融合后得到最终响应图作为回归本文档来自技高网
...

【技术保护点】
1.一种基于多层语义特征与多响应图融合的目标跟踪方法,其特征在于,所述方法包括:/n将提取的多层语义特征分别输入不同分支的卷积层中生成多个响应图,并进行多响应图的融合,融合后得到最终响应图作为回归网络模型的输出;/n训练、更新回归网络模型的参数,回归网络模型的训练标记图由高斯函数生成,将搜索图像块与训练标记图组成的训练样本对,送入回归网络模型中,直到预定义的损失函数小于设定的阈值或迭代步数超过上限,回归网络型训练结束;/n利用训练好的回归网络模型进行在线检测,裁剪出与前一帧图像块同样大小的搜索图像块,将此裁剪的搜索图像块作为训练好的回归网络模型的输入,进行多层语义特征提取与多响应图融合,通过搜索最终响应图的最大值,作为回归响应结果,确定预测的目标物体的位置;/n提取多个不同尺寸的搜索图像块,分别送入回归网络模型中,对应得到多个最终响应图,通过比较回归响应结果的最大值,确定对应的目标尺寸。/n

【技术特征摘要】
1.一种基于多层语义特征与多响应图融合的目标跟踪方法,其特征在于,所述方法包括:
将提取的多层语义特征分别输入不同分支的卷积层中生成多个响应图,并进行多响应图的融合,融合后得到最终响应图作为回归网络模型的输出;
训练、更新回归网络模型的参数,回归网络模型的训练标记图由高斯函数生成,将搜索图像块与训练标记图组成的训练样本对,送入回归网络模型中,直到预定义的损失函数小于设定的阈值或迭代步数超过上限,回归网络型训练结束;
利用训练好的回归网络模型进行在线检测,裁剪出与前一帧图像块同样大小的搜索图像块,将此裁剪的搜索图像块作为训练好的回归网络模型的输入,进行多层语义特征提取与多响应图融合,通过搜索最终响应图的最大值,作为回归响应结果,确定预测的目标物体的位置;
提取多个不同尺寸的搜索图像块,分别送入回归网络模型中,对应得到多个最终响应图,通过比较回归响应结果的最大值,确定对应的目标尺寸。


2.根据权利要求1所述的一种基于多层语义特征与多响应图融合的目标跟踪方法,其特征在于,所述提取的多层语义特征具体为:
首先进行回归网络模型的初始化,回归网络模型的输入为一个搜索图像块,输出为回归响应图;
使用深度网络VGG16中的不同层对搜索图像块进行多层语义特征提取。


3.根据权利要求1所述的一种基于多层语义特征与多响应图融合的目标跟踪方法,其特征在于,所述将提取的多层语义特征分别输入不同分支的卷积层中生成多个响应图,并进行多响应图的融合具体为:
将深度网络VGG16中的conv4...

【专利技术属性】
技术研发人员:刘安安张春婷刘婧苏育挺
申请(专利权)人:天津大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1