基于深度对抗训练的视觉目标跟踪方法和装置制造方法及图纸

技术编号:21660303 阅读:30 留言:0更新日期:2019-07-20 06:02
本申请公开了一种基于深度对抗训练的视觉目标跟踪方法和装置。其中,方法包括:将视频数据的每一个视频帧划分为若干个搜索区域;对于每一个搜索区域,将目标模板和该搜索区域输入到响应图回归网络中,输出所述目标对应的响应图;对于每一个搜索区域,将目标模板、该搜索区域和响应图输入到判别网络中,输出该搜索区域的得分;将得分最高的搜索区域对应的定位信息作为目标在该视频帧中的定位信息。该方法可以通过构建多个搜索区域对目标进行跟踪,能够对长宽比变化的目标进行有效跟踪。通过判别网络对响应图的回归结果进行打分,能够提高判别的准确性。通过将响应图回归网络和判别网络进行联合,能够实现端到端的处理。

Visual Target Tracking Method and Device Based on Deep Countermeasure Training

【技术实现步骤摘要】
基于深度对抗训练的视觉目标跟踪方法和装置
本申请涉及计算机视觉领域,具体涉及一种基于深度对抗训练的视觉目标跟踪方法和装置。
技术介绍
视觉目标跟踪作为计算机视觉领域一个基础方向,在智能视频监控、人机交互、自动驾驶、机器人导航等方向具有广泛的应用。但在实际应用场景中,尺度变化、遮挡、运动模糊等因素会对跟踪结果产生很大的负面影响。很多基于手工特征,例如,颜色特征、方向梯度特征、尺度不变特征等的跟踪器在很多情况下不能很好地对目标外观进行有效的建模,造成跟踪器容易发生跟踪失败。近年来,深度学习算法广泛应用于计算机视觉领域。由于其可以从海量数据中自动的学习鲁棒的特征,可以获得比手工设计的特征更好的效果。现有的基于深度学习的视觉目标跟踪算法主要具有以下不足:第一,大多数跟踪算法对长宽比可变的目标跟踪性能较差;第二,跟踪过程中需要提取大量的候选区域,造成计算量过大;第三,跟踪过程中响应图的回归结果不够精确,容易造成误差的大量积累;第四,回归和分类任务分别训练,无法在一个统一的框架下进行端到端的训练。
技术实现思路
本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。根据本申请的第一个方面,提供了一种视觉目标跟踪方法,包括:搜索区域划分步骤:对于视频数据的每一个视频帧,将该视频帧划分为若干个搜索区域;定位信息计算步骤:对于每一个搜索区域,将目标模板和该搜索区域输入到响应图回归网络中,输出所述目标对应的响应图,所述响应图表示所述目标模板中的目标在该搜索区域中的定位信息;判别步骤:对于每一个搜索区域,将所述目标模板、该搜索区域和所述响应图输入到判别网络中,输出该搜索区域的得分;定位步骤:将得分最高的搜索区域对应的定位信息作为目标在该视频帧中的定位信息。该方法可以通过构建多个搜索区域对目标进行跟踪,即使目标的长宽比变化,也能进行有效跟踪。通过判别网络对响应图的回归结果进行打分,能够提高判别的准确性,减少误差的积累。通过将响应图回归网络和判别网络进行联合,能够实现端到端的处理,操作简单,自动化程度高。可选地,所述响应图回归网络包括:第一编码子网络:包括依次相连的第一数量的卷积层,输入为所述目标模板;第二编码子网络:与所述第一编码子网络结构相同且权值共享,输入为所述搜索区域;拼接层:分别与所述第一编码子网络的输出端和所述第二编码子网络的输出端连接;解码器:包括第二数量的依次相连的反卷积层,其输入端与所述拼接层的输出端连接,并且输出所述目标对应的响应图,所述响应图表示所述目标模板中的目标在该搜索区域中的定位信息。该方法能够通过响应图对搜索区域的特征进行表征,和生成特征值的方式相比,能保留更多的搜索区域的图像信息,采用结构相同参数共享的子网络,能够提高训练和计算的速度,对于视频数据而言,能够满足实时处理的需求。可选地,所述判别网络包括:输入模块:将所述目标模板、该搜索区域和所述响应图输入到输入模块中,该输入模块将所述目标模板、该搜索区域和所述响应图在通道数方向上进行合并,输出第一张量;判别子网络:包括依次相连的第三数量的卷积层、向量处理层和输出层,其中,所述向量处理层将所述判别子网络中最后一个卷积层输出的第二张量处理成一维向量并输出给所述输出层,所述输出层输出该搜索区域的得分。可选地,所述定位信息包括:位置坐标和尺寸信息。可选地,该方法还包括:目标模板更新步骤:每隔预设的时间段,利用该时间段中得分最高的搜索区域中目标所在的图像部分更新目标模板。可选地,所述响应图回归网络采用以下步骤进行训练:对于视频序列中的每一个视频帧,利用包围盒坐标对目标物进行标注;生成训练数据,所述训练数据包括目标模板、搜索区域和响应图,所述训练数据的生成方法包括:从所述视频序列中随机抽取相邻的第一视频帧和第二视频帧,以目标包围框M倍大小从第一视频帧中裁剪出目标模板,分别以K倍大小从第二视频帧中裁剪出搜索区域,其中,M大于1,K大于1;在目标模板中,目标位于中心位置,在所述搜索区域中,目标物均匀分布出现在各个位置,依据目标在所述搜索区域的位置,生成对应的响应图,在所述响应图中,最大响应值位置对应目标中心,目标包围框范围之外的部分响应值为0;利用所述训练数据的集合,训练基于深度自编码结构的响应图回归网络。可选地,所述判别网络采用以下步骤进行训练:对于训练数据中的响应图进行打分并对分数进行标记,其中,所述训练数据包括:目标模板、搜索区域和响应图;利用所述训练数据和响应图的分数,训练判别网络。可选地,对所述响应图回归网络和所述判别网络进行交替训练。可选地,所述交替训练包括:训练所述响应图回归网络时,反向传播的误差包括:与真实的响应图之间的均方误差和所述判别网络回传的softmax误差;所述判别网络基于所述反向传播的误差对响应图进行打分。根据本申请的第二个方面,提供了一种视觉目标跟踪装置,包括:搜索区域划分模块,其配置成用于对于视频数据的每一个视频帧,将该视频帧划分为若干个搜索区域;定位信息计算模块,其配置成用于对于每一个搜索区域,将目标模板和该搜索区域输入到响应图回归网络中,输出所述目标对应的响应图,所述响应图表示所述目标模板中的目标在该搜索区域中的定位信息;判别步骤模块,其配置成用于对于每一个搜索区域,将所述目标模板、该搜索区域和所述响应图输入到判别网络中,输出该搜索区域的得分;和定位模块,其配置成用于将得分最高的搜索区域对应的定位信息作为目标在该视频帧中的定位信息。该装置可以通过构建多个搜索区域对目标进行跟踪,即使目标的长宽比变化,也能进行有效跟踪。通过判别网络对响应图的回归结果进行打分,能够提高判别的准确性,减少误差的积累。通过将响应图回归网络和判别网络进行联合,能够实现端到端的处理,操作简单,自动化程度高。根据下文结合附图对本申请的具体实施例的详细描述,本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解的是,这些附图未必是按比例绘制的。在附图中:图1是运行根据本申请一个实施例的视觉目标跟踪方法的计算机装置硬件结构示意图;图2是根据本申请的一个实施例的视觉目标跟踪方法的示意性流程图;图3是根据本申请的一个实施例的响应图回归网络的示意性框图;图4是根据本申请的一个实施例的判别网络的示意性框图;图5是根据本申请的另一个实施例的视觉目标跟踪方法的示意性流程图;图6是根据本申请的一个实施例的视觉目标跟踪装置的示意性框图;图7是本申请的计算设备的一个实施例的框图;图8是本申请的计算机可读存储介质的一个实施例的框图。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,本申请本文档来自技高网
...

【技术保护点】
1.一种视觉目标跟踪方法,包括:搜索区域划分步骤:对于视频数据的每一个视频帧,将该视频帧划分为若干个搜索区域;定位信息计算步骤:对于每一个搜索区域,将目标模板和该搜索区域输入到响应图回归网络中,输出所述目标对应的响应图,所述响应图表示所述目标模板中的目标在该搜索区域中的定位信息;判别步骤:对于每一个搜索区域,将所述目标模板、该搜索区域和所述响应图输入到判别网络中,输出该搜索区域的得分;和定位步骤:将得分最高的搜索区域对应的定位信息作为目标在该视频帧中的定位信息。

【技术特征摘要】
1.一种视觉目标跟踪方法,包括:搜索区域划分步骤:对于视频数据的每一个视频帧,将该视频帧划分为若干个搜索区域;定位信息计算步骤:对于每一个搜索区域,将目标模板和该搜索区域输入到响应图回归网络中,输出所述目标对应的响应图,所述响应图表示所述目标模板中的目标在该搜索区域中的定位信息;判别步骤:对于每一个搜索区域,将所述目标模板、该搜索区域和所述响应图输入到判别网络中,输出该搜索区域的得分;和定位步骤:将得分最高的搜索区域对应的定位信息作为目标在该视频帧中的定位信息。2.根据权利要求1所述的方法,其特征在于,所述响应图回归网络包括:第一编码子网络:包括依次相连的第一数量的卷积层,输入为所述目标模板;第二编码子网络:与所述第一编码子网络结构相同且权值共享,输入为所述搜索区域;拼接层:分别与所述第一编码子网络的输出端和所述第二编码子网络的输出端连接;和解码器:包括第二数量的依次相连的反卷积层,其输入端与所述拼接层的输出端连接,并且输出所述目标对应的响应图,所述响应图表示所述目标模板中的目标在该搜索区域中的定位信息。3.根据权利要求1或2所述的方法,其特征在于,所述判别网络包括:输入模块:将所述目标模板、该搜索区域和所述响应图输入到输入模块中,该输入模块将所述目标模板、该搜索区域和所述响应图在通道数方向上进行合并,输出第一张量;和判别子网络:包括依次相连的第三数量的卷积层、向量处理层和输出层,其中,所述向量处理层将所述判别子网络中最后一个卷积层输出的第二张量处理成一维向量并输出给所述输出层,所述输出层输出该搜索区域的得分。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述定位信息包括:位置坐标和尺寸信息。5.根据权利要求1至4中任一项所述的方法,其特征在于,该方法还包括:目标模板更新步骤:每隔预设的时间段,利用该时间段中得分最高的搜索区域中目标所在的图像部分更新目标模板。6.根据权利要求1至4中任一项所述的方法,其特征在于,所述响应图回归网络采用以下步骤进...

【专利技术属性】
技术研发人员:姬晓晨
申请(专利权)人:北京影谱科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1