基于深度对抗训练的视觉目标跟踪方法和装置制造方法及图纸

技术编号：21660303 阅读：30 留言：0更新日期：2019-07-20 06:02

本申请公开了一种基于深度对抗训练的视觉目标跟踪方法和装置。其中，方法包括：将视频数据的每一个视频帧划分为若干个搜索区域；对于每一个搜索区域，将目标模板和该搜索区域输入到响应图回归网络中，输出所述目标对应的响应图；对于每一个搜索区域，将目标模板、该搜索区域和响应图输入到判别网络中，输出该搜索区域的得分；将得分最高的搜索区域对应的定位信息作为目标在该视频帧中的定位信息。该方法可以通过构建多个搜索区域对目标进行跟踪，能够对长宽比变化的目标进行有效跟踪。通过判别网络对响应图的回归结果进行打分，能够提高判别的准确性。通过将响应图回归网络和判别网络进行联合，能够实现端到端的处理。

Visual Target Tracking Method and Device Based on Deep Countermeasure Training

全部详细技术资料下载

【技术实现步骤摘要】
基于深度对抗训练的视觉目标跟踪方法和装置
本申请涉及计算机视觉领域，具体涉及一种基于深度对抗训练的视觉目标跟踪方法和装置。
技术介绍
视觉目标跟踪作为计算机视觉领域一个基础方向，在智能视频监控、人机交互、自动驾驶、机器人导航等方向具有广泛的应用。但在实际应用场景中，尺度变化、遮挡、运动模糊等因素会对跟踪结果产生很大的负面影响。很多基于手工特征，例如，颜色特征、方向梯度特征、尺度不变特征等的跟踪器在很多情况下不能很好地对目标外观进行有效的建模，造成跟踪器容易发生跟踪失败。近年来，深度学习算法广泛应用于计算机视觉领域。由于其可以从海量数据中自动的学习鲁棒的特征，可以获得比手工设计的特征更好的效果。现有的基于深度学习的视觉目标跟踪算法主要具有以下不足：第一，大多数跟踪算法对长宽比可变的目标跟踪性能较差；第二，跟踪过程中需要提取大量的候选区域，造成计算量过大；第三，跟踪过程中响应图的回归结果不够精确，容易造成误差的大量积累；第四，回归和分类任务分别训练，无法在一个统一的框架下进行端到端的训练。
技术实现思路
本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。根据本申请的第一个方面，提供了一种视觉目标跟踪方法，包括：搜索区域划分步骤：对于视频数据的每一个视频帧，将该视频帧划分为若干个搜索区域；定位信息计算步骤：对于每一个搜索区域，将目标模板和该搜索区域输入到响应图回归网络中，输出所述目标对应的响应图，所述响应图表示所述目标模板中的目标在该搜索区域中的定位信息；判别步骤：对于每一个搜索区域，将所述目标模板、该搜索区域和所述响应图输入到判别网络中，输出该搜索...

【技术保护点】
1.一种视觉目标跟踪方法，包括：搜索区域划分步骤：对于视频数据的每一个视频帧，将该视频帧划分为若干个搜索区域；定位信息计算步骤：对于每一个搜索区域，将目标模板和该搜索区域输入到响应图回归网络中，输出所述目标对应的响应图，所述响应图表示所述目标模板中的目标在该搜索区域中的定位信息；判别步骤：对于每一个搜索区域，将所述目标模板、该搜索区域和所述响应图输入到判别网络中，输出该搜索区域的得分；和定位步骤：将得分最高的搜索区域对应的定位信息作为目标在该视频帧中的定位信息。

【技术特征摘要】
1.一种视觉目标跟踪方法，包括：搜索区域划分步骤：对于视频数据的每一个视频帧，将该视频帧划分为若干个搜索区域；定位信息计算步骤：对于每一个搜索区域，将目标模板和该搜索区域输入到响应图回归网络中，输出所述目标对应的响应图，所述响应图表示所述目标模板中的目标在该搜索区域中的定位信息；判别步骤：对于每一个搜索区域，将所述目标模板、该搜索区域和所述响应图输入到判别网络中，输出该搜索区域的得分；和定位步骤：将得分最高的搜索区域对应的定位信息作为目标在该视频帧中的定位信息。2.根据权利要求1所述的方法，其特征在于，所述响应图回归网络包括：第一编码子网络：包括依次相连的第一数量的卷积层，输入为所述目标模板；第二编码子网络：与所述第一编码子网络结构相同且权值共享，输入为所述搜索区域；拼接层：分别与所述第一编码子网络的输出端和所述第二编码子网络的输出端连接；和解码器：包括第二数量的依次相连的反卷积层，其输入端与所述拼接层的输出端连接，并且输出所述目标对应的响应图，所述响应图表示所述目标模板中的目标在该搜索区域中的定位信息。3.根据权利要求1或2所述的方法，其特征在于，所述判别网络包括：输入模块：将所述目标模板、该搜索区域和所述响应图输入到输入模块中，该输入模块将所述目标模板、该搜索区域和所述响应图在通道数方向上进行合并，输出第一张量；和判别子网络：包括依次相连的第三数量的卷积层、向量处理层和输出层，其中，所述向量处理层将所述判别子网络中最后一个卷积层输出的第二张量处理成一维向量并输出给所述输出层，所述输出层输出该搜索区域的得分。4.根据权利要求1至3中任一项所述的方法，其特征在于，所述定位信息包括：位置坐标和尺寸信息。5.根据权利要求1至4中任一项所述的方法，其特征在于，该方法还包括：目标模板更新步骤：每隔预设的时间段，利用该时间段中得分最高的搜索区域中目标所在的图像部分更新目标模板。6.根据权利要求1至4中任一项所述的方法，其特征在于，所述响应图回归网络采用以下步骤进...

【专利技术属性】
技术研发人员：姬晓晨，
申请(专利权)人：北京影谱科技股份有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人