在视频中进行目标跟踪的方法和装置制造方法及图纸

技术编号:18861662 阅读:22 留言:0更新日期:2018-09-05 14:46
本申请实施例公开了在视频中进行目标跟踪的方法和装置。在视频中进行目标跟踪的方法包括基于待跟踪目标在视频的历史帧中的位置,从视频的当前帧中截取出候选区域;将所截取的候选区域输入预先训练的全卷积网络,得到特征图,其中,特征图包含用于指示候选目标在特征图中所处位置的候选目标区域信息;基于候选目标区域信息,从特征图中确定出与各候选目标一一对应的候选目标区域;以及将确定出的候选目标区域中,与待跟踪目标相似度最高的候选目标区域作为当前帧中的待跟踪目标。该实施方式可以基于待跟踪目标本身的特征,从多个候选目标区域中确定出当前帧中的待跟踪目标,有利于目标跟踪的准确性。

Method and device for target tracking in video

The application embodiment discloses a method and device for tracking a target in video. Target tracking in video includes intercepting candidate regions from the current frame of the video based on the position of the target to be tracked in the historical frame of the video; input the intercepted candidate regions into a pre-trained full convolution network to obtain a feature map, which contains a feature map for indicating the candidate target in the feature map. Based on the candidate target region information, the candidate target region corresponding to each candidate target is determined from the feature map, and the candidate target region with the highest similarity with the target to be tracked is selected as the target to be tracked in the current frame. Based on the characteristics of the target to be tracked, the target to be tracked in the current frame can be determined from a plurality of candidate target regions, which is beneficial to the accuracy of target tracking.

【技术实现步骤摘要】
在视频中进行目标跟踪的方法和装置
本申请实施例涉及图像处理领域,具体涉及计算机视觉领域,尤其涉及在视频中进行目标跟踪的方法和装置。
技术介绍
目标跟踪,是指在连续的视频序列中,建立所要跟踪物体的位置关系,得到物体完整的运动轨迹。例如,给定图像第一帧的目标坐标位置,计算在下一帧图像中目标的确切位置。在运动过程中,目标可能会呈现一些图像上的变化,比如姿态或形状的变化、尺度的变化、背景遮挡或光线亮度的变化等。目标跟踪算法的研究也围绕着解决这些变化和具体的应用展开。现有技术中,已有了多种目标跟踪的算法,例如,粒子滤波(ParticleFilter)方法、基于特征点的光流算法、基于相关滤波的跟踪算法等等。
技术实现思路
本申请实施例提出了在视频中进行目标跟踪的方法和装置。第一方面,本申请实施例提供了一种在视频中进行目标跟踪的方法,包括:基于待跟踪目标在视频的历史帧中的位置,从视频的当前帧中截取出候选区域;将所截取的候选区域输入预先训练的全卷积网络,得到特征图,其中,特征图包含用于指示候选目标在特征图中所处位置的候选目标区域信息;基于候选目标区域信息,从特征图中确定出与各候选目标一一对应的候选目标区域;以及将确定出的候选目标区域中,与待跟踪目标相似度最高的候选目标区域作为当前帧中的待跟踪目标。在一些实施例中,在将所截取的候选区域输入预先训练的全卷积网络之前,方法还包括训练全卷积网络的步骤,训练全卷积网络的步骤包括:建立初始全卷积网络;获取训练样本集,训练样本集包括多个训练样本对,训练样本对包括同一视频文件的其中两帧图像以及用于标注目标对象在两帧图像中所处区域的标注信息;将训练样本集输入初始全卷积网络,基于预先设置的损失函数训练初始全卷积网络,得到训练后的全卷积网络。在一些实施例中,将所确定出的候选目标区域中,与待跟踪目标相似度最高的候选目标区域作为当前帧中的待跟踪目标,包括:将从特征图中截取出的各候选目标区域输入预设的池化层,得到与各候选目标区域相对应的候选特征图;对于每一个候选特征图,计算该候选特征图与预先获取的待跟踪目标的特征图之间的相似度;将与预先获取的待跟踪目标的特征图之间的相似度最高的候选特征图所对应的候选目标区域作为当前帧中的待跟踪目标。在一些实施例中,在将与预先获取的待跟踪目标的特征图之间的相似度最高的候选特征图所对应的候选目标区域作为当前帧中的待跟踪目标之后,方法还包括:将与预先获取的待跟踪目标的特征图之间的相似度最高的候选特征图作为待跟踪目标的特征图。在一些实施例中,方法还包括:以预设的时间间隔在视频的当前帧中检测待跟踪目标;以及基于所检测的待跟踪目标,更新待跟踪目标的特征图。在一些实施例中,视频的历史帧与视频的当前帧为视频中相邻的两帧。第二方面,本申请实施例还提供了一种在视频中进行目标跟踪的装置,包括:截取单元,配置用于基于待跟踪目标在视频的历史帧中的位置,从视频的当前帧中截取出候选区域;特征获取单元,配置用于将所截取的候选区域输入预先训练的全卷积网络,得到特征图,其中,特征图包含用于指示候选目标在特征图中所处位置的候选目标区域信息;候选目标区域确定单元,基于候选目标区域信息,从特征图中确定出与各候选目标一一对应的候选目标区域;以及目标跟踪单元,配置用于将确定出的候选目标区域中,与待跟踪目标相似度最高的候选目标区域作为当前帧中的待跟踪目标。在一些实施例中,装置还包括训练单元,训练单元配置用于在特征获取单元将所截取的候选区域输入预先训练的全卷积网络之前:建立初始全卷积网络;获取训练样本集,训练样本集包括多个训练样本对,训练样本对包括同一视频文件的其中两帧图像以及用于标注目标对象在两帧图像中所处区域的标注信息;将训练样本集输入初始全卷积网络,基于预先设置的损失函数训练初始全卷积网络,得到训练后的全卷积网络。在一些实施例中,目标跟踪单元进一步配置用于:将从特征图中截取出的各候选目标区域输入预设的池化层,得到与各候选目标区域相对应的候选特征图;对于每一个候选特征图,计算该候选特征图与预先获取的待跟踪目标的特征图之间的相似度;将与预先获取的待跟踪目标的特征图之间的相似度最高的候选特征图所对应的候选目标区域作为当前帧中的待跟踪目标。在一些实施例中,装置还包括确定单元;确定单元配置用于在目标跟踪单元将与预先获取的待跟踪目标的特征图之间的相似度最高的候选特征图所对应的候选目标区域作为当前帧中的待跟踪目标之后,将与预先获取的待跟踪目标的特征图之间的相似度最高的候选特征图作为待跟踪目标的特征图。在一些实施例中,装置还包括:检测单元,配置用于以预设的时间间隔在视频的当前帧中检测待跟踪目标;以及更新单元,配置用于基于所检测的待跟踪目标,更新待跟踪目标的特征图。在一些实施例中,视频的历史帧与视频的当前帧为视频中相邻的两帧。第三方面,本申请实施例还提供了一种设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面任一的方法。第四方面,本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其中,程序被处理器执行时实现如第一方面任一的方法。本申请实施例提供的在视频中进行目标跟踪的方法和装置,通过基于待跟踪目标在视频的历史帧中的位置,从视频的当前帧中截取出候选区域,将所截取的候选区域输入预先训练的全卷积网络,得到特征图,再基于候选目标区域信息,从特征图中确定出与各候选目标一一对应的候选目标区域,最后,将所确定出的候选目标区域中,与待跟踪目标相似度最高的候选目标区域作为当前帧中的待跟踪目标,可以基于待跟踪目标本身的特征,从多个候选目标区域中确定出当前帧中的待跟踪目标,有利于目标跟踪的准确性。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1是本申请可以应用于其中的示例性系统架构图;图2是根据本申请的在视频中进行目标跟踪的方法的一个实施例的流程图;图3A是待跟踪目标在视频的其中一个历史帧中所处位置的示意图;图3B是在视频的当前帧中截取出的候选区域的示意图;图3C是候选区域中,各候选目标区域的示意图;图4A~图4D是根据本申请的在视频中进行目标跟踪的方法的一个应用场景示意图;图5是根据本申请的在视频中进行目标跟踪的方法的另一个实施例的流程图;图6是本申请各实施例的在视频中进行目标跟踪的方法中,使用的全卷积网络的训练方法的示意性流程图;图7是根据本申请的在视频中进行目标跟踪的装置的一个实施例的结构图;图8是适于用来实现本申请实施例的服务器的计算机系统的结构示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。图1示出了可以应用本申请的在视频中进行目标跟踪的方法或在视频中进行目标跟踪的装置的实施例的示例性系统架构100。如图1所示,系统架构100可以包括终端设备101、102、103,网络104本文档来自技高网...

【技术保护点】
1.一种在视频中进行目标跟踪的方法,包括:基于待跟踪目标在视频的历史帧中的位置,从视频的当前帧中截取出候选区域;将所截取的候选区域输入预先训练的全卷积网络,得到特征图,其中,特征图包含用于指示候选目标在所述特征图中所处位置的候选目标区域信息;基于所述候选目标区域信息,从所述特征图中确定出与各所述候选目标一一对应的候选目标区域;以及将确定出的候选目标区域中,与待跟踪目标相似度最高的候选目标区域作为所述当前帧中的待跟踪目标。

【技术特征摘要】
1.一种在视频中进行目标跟踪的方法,包括:基于待跟踪目标在视频的历史帧中的位置,从视频的当前帧中截取出候选区域;将所截取的候选区域输入预先训练的全卷积网络,得到特征图,其中,特征图包含用于指示候选目标在所述特征图中所处位置的候选目标区域信息;基于所述候选目标区域信息,从所述特征图中确定出与各所述候选目标一一对应的候选目标区域;以及将确定出的候选目标区域中,与待跟踪目标相似度最高的候选目标区域作为所述当前帧中的待跟踪目标。2.根据权利要求1所述的方法,其中,在所述将所截取的候选区域输入预先训练的全卷积网络之前,所述方法还包括训练全卷积网络的步骤,所述训练全卷积网络的步骤包括:建立初始全卷积网络;获取训练样本集,所述训练样本集包括多个训练样本对,所述训练样本对包括同一视频文件的其中两帧图像以及用于标注目标对象在两帧图像中所处区域的标注信息;将所述训练样本集输入所述初始全卷积网络,基于预先设置的损失函数训练所述初始全卷积网络,得到训练后的全卷积网络。3.根据权利要求1所述的方法,其中,所述将所确定出的候选目标区域中,与待跟踪目标相似度最高的候选目标区域作为所述当前帧中的待跟踪目标,包括:将从所述特征图中截取出的各候选目标区域输入预设的池化层,得到与各候选目标区域相对应的候选特征图;对于每一个候选特征图,计算该候选特征图与预先获取的所述待跟踪目标的特征图之间的相似度;将与预先获取的所述待跟踪目标的特征图之间的相似度最高的候选特征图所对应的候选目标区域作为所述当前帧中的待跟踪目标。4.根据权利要求3所述的方法,其中,在所述将与预先获取的所述待跟踪目标的特征图之间的相似度最高的候选特征图所对应的候选目标区域作为所述当前帧中的待跟踪目标之后,所述方法还包括:将与预先获取的所述待跟踪目标的特征图之间的相似度最高的候选特征图作为所述待跟踪目标的特征图。5.根据权利要求4所述的方法,其中,所述方法还包括:以预设的时间间隔在所述视频的当前帧中检测待跟踪目标;以及基于所检测的待跟踪目标,更新所述待跟踪目标的特征图。6.根据权利要求1-5之一所述的方法,其中,所述视频的历史帧与所述视频的当前帧为所述视频中相邻的两帧。7.一种在视频中进行目标跟踪的装置,包括:截取单元,配置用于基于待跟踪目标在视频的历史帧中的位置,从视频的当前帧中截取出候选区域;特征获取单元,配置用于将所截取的候选区域输入预先训练的全卷积网络,得...

【专利技术属性】
技术研发人员:杜康
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1