一种视频目标检测跟踪方法及设备技术

技术编号:18446372 阅读:19 留言:0更新日期:2018-07-14 10:58
本申请提供了一种视频目标检测跟踪及方法,该方案先确定当前视频帧中的目标物体,然后获取目标物体在前序视频帧中的图像区域以及图像区域的图像特征,进而根据目标物体在前序视频帧中的图像区域,对目标物体进行运动估计,确定目标物体在当前视频帧的预测区域,在确定预测区域之后,根据图像区域的图像特征,在预测区域中对目标物体重新定位,确定目标物体在当前视频帧的图像区域。该方案可以采用深度神经网络来完成各个步骤的处理,其中,前序视频帧是指当前视频帧之前的k个视频帧,通过这前k个视频帧来对当前视频帧进行预估和对比检测,计算量较小,并且能够解决视频中目标物体偶尔丢失或者遮挡的问题,检测精度较高。

A video target detection and tracking method and equipment

This application provides a video target detection tracking and method. This scheme first determines the target object in the current video frame, then obtains the image region of the target object in the presequence video frame and the image feature of the image region, and then carries out the target object on the target object in the image region in the presequence video frame. Dynamic estimation, determine the target object in the current video frame prediction area, after determining the prediction area, according to the image feature of the image region, relocate the target object in the prediction area, and determine the target object in the current video frame image area. In this scheme, the depth neural network can be used to deal with various steps, in which the presequence video frames refer to the K video frames before the current video frames. Through the previous K video frames, the current video frames are estimated and compared, the amount of computation is small, and the occasional loss or occlusion of the target object in the video can be solved. The accuracy of the test is high.

【技术实现步骤摘要】
一种视频目标检测跟踪方法及设备
本申请涉及信息
,尤其涉及一种视频目标检测跟踪方法及设备。
技术介绍
视频目标检测跟踪是计算机视觉的重要研究课题,其主要任务是连续、实时、准确地定位视频序列中被跟踪的目标对象,在视频监控、机器人、无人驾驶、无人机等领域都有着广泛的应用。目前的视频目标检测跟踪方案存在各自的缺点,例如基于传统的图像特征的视频目标跟踪方法其检测性能差,检测准确率和效率不高,而光流法、KCF(KernelizedCorrelationFilters)等方法计算量较大。申请内容本申请的一个目的是提供一种视频目标检测跟踪方案,用以解决检测精度低、计算量较高的问题。为实现上述目的,本申请提供了一种视频目标检测跟踪方法,该方法包括:确定当前视频帧中的目标物体;获取目标物体在前序视频帧中的图像区域以及所述图像区域的图像特征,其中,所述前序视频帧为当前视频帧之前的k个视频帧,k为正整数;根据所述目标物体在前序视频帧中的图像区域,对所述目标物体进行运动估计,确定所述目标物体在当前视频帧的预测区域;根据所述预测区域确定目标物体在当前视频帧中的检测范围,并基于所述图像区域的图像特征,在所述检测范围中定位所述目标物体,以确定所述目标物体在当前视频帧中的图像区域。基于本申请的另一方面,还提供了一种视频目标检测跟踪设备,该设备包括:检测分类装置,用于确定当前视频帧中的目标物体;运动估计装置,用于获取目标物体在前序视频帧中的图像区域以及所述图像区域的图像特征,根据所述目标物体在前序视频帧中的图像区域,对所述目标物体进行运动估计,确定所述目标物体在当前视频帧的预测区域,其中,所述前序视频帧为当前视频帧之前的k个视频帧,k为正整数;重定位装置,用于根据所述预测区域确定目标物体在当前视频帧中的检测范围,并基于所述图像区域的图像特征,在所述检测范围中定位所述目标物体,以确定所述目标物体在当前视频帧中的图像区域。此外,本申请还提供了一种视频目标检测跟踪设备,该设备包括:处理器;以及存储有机器可读指令的一个或多个机器可读介质,当所述处理器执行所述机器可读指令时,使得所述设备执行前述的方法。本申请提供的方案在对视频中的目标物体进行检测跟踪时,可以先确定当前视频帧中的目标物体,然后获取目标物体在前序视频帧中的图像区域以及所述图像区域的图像特征,进而根据所述目标物体在前序视频帧中的图像区域,对所述目标物体进行运动估计,确定所述目标物体在当前视频帧的预测区域,在确定预测区域之后,根据所述图像区域的图像特征,在所述预测区域中对所述目标物体重新定位,确定所述目标物体在当前视频帧的图像区域。该方案可以采用深度神经网络来完成各个步骤的处理,其中,前序视频帧是指当前视频帧之前的k个视频帧,通过这前k个视频帧来对当前视频帧进行预估和对比检测,计算量较小,并且能够解决视频中目标物体偶尔丢失或者遮挡的问题,检测精度较高。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1为本申请实施例提供的一种视频目标检测跟踪方法的处理流程图;图2为采用本申请实施例中所采用的深度神经网络的网络模型示意图;图3为本申请实施例中目标检测流程训练的示意图;图4为本申请实施例中目标跟踪定位流程训练的示意图;图5为本申请实施例中对目标物体的图像区域进行标记的示意图;图6为本申请实施例提供的一种视频目标检测跟踪方法设备的示意图;图7为本申请实施例提供的另一种视频目标检测跟踪方法设备的示意图;附图中相同或相似的附图标记代表相同或相似的部件。具体实施方式下面结合附图对本申请作进一步详细描述。在本申请一个典型的配置中,终端、服务网络的设备均包括一个或多个处理器(CPU)、图像处理单元(GPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的装置或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。本申请实施例提供了一种视频目标检测跟踪方法,该方法可以对视频中的目标物体进行检测并对检测到的目标物体进行跟踪,该方法的执行主体可以是用户设备、网络设备或用户设备与网络设备通过网络相集成所构成的设备,或者也可以是运行于上述设备的应用程序。所述用户设备包括但不限于计算机、手机、平板电脑等各类终端设备;所述网络设备包括但不限于如网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合等实现。在此,云由基于云计算(CloudComputing)的大量主机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟计算机。图1示出了本申请实施例中一种视频目标检测跟踪方法的处理流程图,包括以下处理步骤:步骤S101,确定当前视频帧中的目标物体。步骤S102,获取目标物体在前序视频帧中的图像区域以及所述图像区域的图像特征,其中,所述前序视频帧为当前视频帧之前的k个视频帧,k为正整数。步骤S103,根据所述目标物体在前序视频帧中的图像区域,对所述目标物体进行运动估计,确定所述目标物体在当前视频帧的预测区域。步骤S104,根据所述预测区域确定目标物体在当前视频帧中的检测范围,并基于所述图像区域的图像特征,在所述检测范围中定位所述目标物体,以确定所述目标物体在当前视频帧中的图像区域。由于前序视频帧是指当前视频帧之前的k个视频帧,通过这前k个视频帧来对当前视频帧进行预估和对比检测,计算量较小,并且能够解决视频中目标物体偶尔丢失或者遮挡的问题,检测精度较高。在实际场景中,该方案可以采用深度神经网络来完成各个步骤的处理,所述深度神经网络的网络模型可以采用如图2所示的结构,包括特征提取网络001、目标检测网络002、运动估计网络003、分类网络004、重定位网络005。特征提取网络(FeatureExtractionNet)用于提取视频帧中的图像特征,例如深度特征、纹理特征等,可以采用VGG、Resnet等网络模型。目标检测网络(DetectNet)用于检测视频帧中包含的目标物体,可以采用区域生成网络(RegionProposeNetwork)。运动估计网络(EstimationNet)用于对视频帧中物体的运动轨迹进行拟合、估计,可以采用全连接(FullConnectedNetwork)或卷积神经网络(ConvolutionalNeuralNetwork)。目标分类网络(ClassificationNet)和重定位网络(RelocationNet本文档来自技高网...

【技术保护点】
1.一种视频目标检测跟踪方法,其中,该方法包括:确定当前视频帧中的目标物体;获取目标物体在前序视频帧中的图像区域以及所述图像区域的图像特征,其中,所述前序视频帧为当前视频帧之前的k个视频帧,k为正整数;根据所述目标物体在前序视频帧中的图像区域,对所述目标物体进行运动估计,确定所述目标物体在当前视频帧的预测区域;根据所述预测区域确定目标物体在当前视频帧中的检测范围,并基于所述图像区域的图像特征,在所述检测范围中定位所述目标物体,以确定所述目标物体在当前视频帧中的图像区域。

【技术特征摘要】
1.一种视频目标检测跟踪方法,其中,该方法包括:确定当前视频帧中的目标物体;获取目标物体在前序视频帧中的图像区域以及所述图像区域的图像特征,其中,所述前序视频帧为当前视频帧之前的k个视频帧,k为正整数;根据所述目标物体在前序视频帧中的图像区域,对所述目标物体进行运动估计,确定所述目标物体在当前视频帧的预测区域;根据所述预测区域确定目标物体在当前视频帧中的检测范围,并基于所述图像区域的图像特征,在所述检测范围中定位所述目标物体,以确定所述目标物体在当前视频帧中的图像区域。2.根据权利要求1所述的方法,其中,所述图像区域和预测区域采用四元组数据(x,y,w,h)表示,其中,(x,y)表示图像区域和预测区域左上角的位置,w表示图像区域和预测区域的宽度,h表示图像区域和预测区域的高度。3.根据权利要求2所述的方法,其中,根据所述目标物体在前序视频帧中的图像区域,对所述目标物体进行运动估计,确定所述目标物体在当前视频帧中的预测区域,包括:根据表示目标物体在前序视频帧中的图像区域的四元组数据,对图像区域的变化进行拟合,确定所述四元组数据的拟合函数;根据所述拟合函数,确定表示所述目标物体在当前视频帧中的预测区域的四元组数据。4.根据权利要求3所述的方法,其中,根据所述预测区域确定目标物体在当前视频帧中的检测范围,包括:根据所述表示所述目标物体在当前视频帧中的预测区域的四元组数据,以及对应的缩放因子,确定表示所述目标物体在当前视频帧中的检测范围的四元组数据。5.根据权利要求1所述的方法,其中,确定所述目标物体在当前视频帧中的图像区域之后,还包括:在所述当前视频帧中对所述目标物体的图像区域进行标记。6.一种视频目标检测跟踪设备,其中,该设备包括:检测分类装置,用...

【专利技术属性】
技术研发人员:徐常亮李军刘军宁
申请(专利权)人:新华智云科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1