一种视频中目标对象的检测跟踪方法、装置及设备制造方法及图纸

技术编号:18531014 阅读:32 留言:0更新日期:2018-07-25 18:10
本申请公开了一种视频中目标对象的检测跟踪方法、装置及设备,其中,方法具体包括,将连续视频帧输入至预先训练得到的卷积神经网络中;其中,所述卷积神经网络至少包括设定数量的共享卷积层,区域建议网络层,利用所述共享卷积层提取连续视频帧的特征,得到分别对应于不同视频帧的特征映射图,利用所述区域建议网络层,根据所述特征映射图确定与目标对象相关的目标区域,基于所述目标区域,检测目标对象在连续视频帧中的位置及运行轨迹。通过该方法,采用卷积神经网络模型将检测跟踪统一起来,减少计算量,并可以解决目标多姿态多视角的检测难题,提升目标检出率,降低误检率。

【技术实现步骤摘要】
一种视频中目标对象的检测跟踪方法、装置及设备
本申请涉及机器视觉
,尤其涉及一种视频中目标对象的检测跟踪方法、装置及设备。
技术介绍
目前,对视频中动态目标对象(如:视频中的车辆、行人等)的检测识别技术,广泛应用于交通、安全监控、家庭娱乐等多个领域。现有技术中,为了提取视频中的动态目标对象,通常采用背景建模与前景检测(BackgroundGenerationAndForegroundDetection)的方法,获取运动前景,从而得到相关的目标对象。然而,现有技术中的上述方法受光照等环境因素的影响较大,可能造成较多误检,并且对静止的目标可能漏检。
技术实现思路
本说明书实施例提供一种视频中目标对象的检测跟踪方法、装置及设备,以通过神经网络模型实现对连续视频帧中目标对象的检测及跟踪。本说明书实施例提供的一种视频中目标对象的检测跟踪方法,具体包括:将连续视频帧输入至预先训练得到的卷积神经网络中;其中,所述卷积神经网络至少包括设定数量的共享卷积层,区域建议网络层;利用所述共享卷积层提取连续视频帧的特征,得到分别对应于不同视频帧的特征映射图;利用所述区域建议网络层,根据所述特征映射图确定与目标对象相关的目标区域;基于所述目标区域,检测目标对象在连续视频帧中的位置及运行轨迹。此外,本实施例还提供了一种视频中目标对象的检测跟踪装置,具体包括:输入模块,将连续视频帧输入至预先训练得到的卷积神经网络中;其中,所述卷积神经网络至少包括设定数量的共享卷积层,区域建议网络层;特征提取模块,利用所述共享卷积层提取连续视频帧的特征,得到分别对应于不同视频帧的特征映射图;区域确定模块,利用所述区域建议网络层,根据所述特征映射图确定与目标对象相关的目标区域;检测跟踪模块,基于所述目标区域,检测目标对象在连续视频帧中的位置及运行轨迹。此外,本实施例还提供了一种视频中目标对象的检测跟踪设备,具体包括:存储器,存储视频中目标对象的检测跟踪程序;通讯接口,接收视频帧;处理器,在通讯接口接收到视频帧后,调用存储器中存储的视频中目标对象的检测跟踪程序,并执行:将连续视频帧输入至预先训练得到的卷积神经网络中;其中,所述卷积神经网络至少包括设定数量的共享卷积层,区域建议网络层;利用所述共享卷积层提取连续视频帧的特征,得到分别对应于不同视频帧的特征映射图;利用所述区域建议网络层,根据所述特征映射图确定与目标对象相关的目标区域;基于所述目标区域,检测目标对象在连续视频帧中的位置及运行轨迹。本说明书实施例采用上述至少一个技术方案能够达到以下有益效果:在视频中,目标对象通常是动态的,在连续的视频帧中,通常表现为目标对象的位置、形态、角度等发生变化。那么,通过上述包含RPN层的卷积神经网络,可以针对每一视频帧中的目标进行识别检测(框选出目标对象的目标区域),并可以确定出后一视频帧中目标区域的位置,从而确定出后一视频帧中的目标对象。在此过程中,采用卷积神经网络模型将检测跟踪统一起来,联合检测跟踪可以通过共享卷积网络,减少计算量;利用卷积网络强大的表征能力,可以解决目标多姿态多视角的检测难题,提升目标检出率,降低误检率;采用多尺度多宽高比进行训练及推断,可以解决目标在场景中尺度及宽高比变化时导致的跟踪丢失或跟踪漂移问题;训练中跟踪采用鉴别损失和位置回归损失结合的方式,确定每个区域所跟踪到的是同一目标,同时得到目标较准确的位置。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为本说明书实施例提供的视频中目标对象的检测跟踪方法流程图;图2为本说明书实施例提供的神经网络框架示意图;图3为本说明书实施例提供的具体算法流程示意图;图4为本说明书实施例提供的视频中目标对象的检测跟踪装置结构示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。在本说明书的一个或多个实施例中,所使用的卷积神经网络具体可以是Fast-RCNN,并且,为了更有效地对图像中的目标对象进行检测跟踪,可以在Fast-RCNN的基础上,使用区域建议网络(RegionProposalNetwork,RPN)。通过两种网络的结合运用,可以实现对图像中多姿态、多角度的目标对象进行较为精准地识别,降低误检率。特别是在对视频图像(即,视频帧)识别的场景下,考虑到视频动态播放的特点,那么,采用上述的神经网络可对若干连续的视频帧中所出现的多个目标对象分别进行检测识别并跟踪其运动轨迹。当然,在实际应用中,所要识别的目标对象可以是在视频中的人物、动物、运动物体(如:车辆)的图像等,具体将根据实际应用的需要所确定。下面对本说明书实施例中提供的基于卷积神经网络的目标检测跟踪方法进行详细说明:如图1所示,所述的目标检测跟踪方法,具体可包括以下步骤:步骤S101:将连续视频帧输入至预先训练得到的卷积神经网络中;其中,所述卷积神经网络至少包括设定数量的共享卷积层,区域建议网络层。在本说明书实施例中,卷积神经网络中的卷积层可以设置为一个,也可以设置为多个,卷积层的具体数量将根据实际应用的需要所确定,这里不进行具体限定。通常而言,每一卷积层中包含多个卷积核,用以对图像中的局部特征进行卷积处理。作为本说明书中一种较优的实施方式,卷积神经网络中的卷积层采用共享卷积层,也即,同一卷积层中的卷积核共享权值,这样的方式能够有效降低权值的数量,便于后续计算及调整。卷积神经网络中的RPN层,具体可在共享卷积层之后添加额外全连接层的方式构建。在本说明书实施例中,可以额外添加两个串联的全连接层。所述的连续视频帧,应认为是在时间上彼此相邻的视频帧,例如:时间为18:02:10的视频图像和时间为18:02:11的视频图像,可认为是两个连续的视频帧。在实际应用场景下,输入至前述卷积神经网络的连续视频可以是两帧同时输入或者是多帧同时输入,这里并不构成对本申请的限定。在以下的实施例中,将按照连续的两个视频帧的输入方式进行说明。步骤S103:利用所述共享卷积层提取连续视频帧的特征,得到分别对应于不同视频帧的特征映射图。卷积神经网络中的共享卷积层在对视频帧进行特征提取的过程中,针对每一视频帧,都可以得到相应的特征映射图。显然,对于多帧图像,便可以得到相对应的多个特征映射图。步骤S105:利用所述区域建议网络层,根据所述特征映射图确定与目标对象相关的目标区域。如前所述,在本说明书实施例中,RPN层可由两个全连接层所构建。具体而言,利用这两个全连接层,可以生成候选目标区域,以及各候选目标区域的类别分值(该分值反映了框选区域中包含目标对象的可能性)。从而可以进一步确定出与目标对象相关的目标区域。步骤S107:基于所述目标区域,确定目标对象在连续视频帧中的位置及运动轨迹。在视频中,目标对象通常是动态的,在连续的视频帧中,通常表现为目标对象的位置、形态、角度等发生变化。那么,通过上述包含RPN层本文档来自技高网...

【技术保护点】
1.一种视频中目标对象的检测跟踪方法,其特征在于,所述方法包括:将连续视频帧输入至预先训练得到的卷积神经网络中;其中,所述卷积神经网络至少包括设定数量的共享卷积层,区域建议网络层;利用所述共享卷积层提取连续视频帧的特征,得到分别对应于不同视频帧的特征映射图;利用所述区域建议网络层,根据所述特征映射图确定与目标对象相关的目标区域;基于所述目标区域,检测目标对象在连续视频帧中的位置及运行轨迹。

【技术特征摘要】
1.一种视频中目标对象的检测跟踪方法,其特征在于,所述方法包括:将连续视频帧输入至预先训练得到的卷积神经网络中;其中,所述卷积神经网络至少包括设定数量的共享卷积层,区域建议网络层;利用所述共享卷积层提取连续视频帧的特征,得到分别对应于不同视频帧的特征映射图;利用所述区域建议网络层,根据所述特征映射图确定与目标对象相关的目标区域;基于所述目标区域,检测目标对象在连续视频帧中的位置及运行轨迹。2.根据权利要求1所述的方法,其特征在于,所述卷积神经网络中还包括相关层;在得到分别对应于不同视频帧的特征映射图之后,所述方法还包括:利用所述相关层,确定连续视频帧所对应的各特征映射图之间的相关性。3.根据权利要求2所述的方法,其特征在于,利用所述相关层,确定连续视频帧所对应的各特征映射图之间的相关性,具体包括:将连续视频帧所对应的各特征映射图按统一网格进行分块处理;利用所述相关层,在经过网络分块后的各特征映射图中,针对位置相同的分块进行卷积处理,得到所述相关层的相关特征图;其中,所述相关特征图用于表征连续的前后两帧之间相关特征。4.根据权利要求1所述的方法,其特征在于,通过以下方法构建所述区域建议网络层:在指定的共享卷积层后添加至少两个具有串联关系的全连接层,作为所述区域建议网络层。5.根据权利要求1所述的方法,其特征在于,利用所述区域建议网络层,根据所述特征映射图确定与目标对象相关的目标区域,具体包括:利用所述区域建议网络层,在视频帧所对应的特征映射图中框选出各候选目标区域,并确定各候选目标区域的类别分值;根据所述各候选目标区域及各候选目标区域的类别分值,确定与所述目标对象相关的目标区域;其中,所述类别分值,用以表征候选目标区域所属前景类别或背景类别的概率。6.根据权利要求3所述的方法,其特征在于,基于所述目标区域,检测目标对象在连续视频帧中的位置及运行轨迹,具体包括:针对连续相邻的两个视频帧,利用相关层得到所述两个视频帧对应的相关特征图;根据所述相关特征图,以及前一视频帧的所对应的目标区域,利用边框回归算法,确定前一视频帧的目标区域在后一视频帧中的位置;根据前后两帧目标区域的位置,确定所述目标对象的运行轨迹。7.根据权利要求6所述的方法,其特征在于,根据前后两帧目标区域的位置,确定所述目标对象的运行轨迹,具体包括:根据前一视频帧的目标区域在后一视频帧中的位置,计算目标对象的平移量及缩放系数;根据所述平移量及缩放系数,确定所述目标对象的运行轨迹。8.一种视频中目标对象的检测跟踪装置,其特征在于,所述装置包括:输入模块,将连续视频帧输入至预先训练得到的卷积神经网络中;其中,所述卷积神经网络至少包括设定数量的共享卷积...

【专利技术属性】
技术研发人员:谯帅彭莉刘洋
申请(专利权)人:新智数字科技有限公司
类型:发明
国别省市:河北,13

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1