一种实时视频流对象检测和跟踪方法技术

技术编号:27939056 阅读:35 留言:0更新日期:2021-04-02 14:20
本发明专利技术公开了一种实时视频流对象检测和跟踪方法,包括以下步骤:A、对输入视频的第一帧子集执行对象检测;B、在第一帧子集中的第一检测帧中检测物体和物体位置;C、在第一检测帧之后,跟踪检测到的对象以更新输入视频的第二帧子集上的对象位置,其中第一帧子集和第二帧子集不重叠,本发明专利技术合理设置了检测帧和跟踪帧的分配,设置合理的检测和跟踪规则,减小综合的计算量,加快计算速度和跟踪的实时性;又优化了用于检测和跟踪的神经网络结构,这不仅可以减小计算量,快速训练神经网络,快速降低损失,提高追踪的精度。

【技术实现步骤摘要】
一种实时视频流对象检测和跟踪方法
本专利技术涉及视频图像分析
,具体为一种实时视频流对象检测和跟踪方法。
技术介绍
摄像机在手机等移动电子设备上几乎无处不在。通常可以通过理解由照相机捕捉的场景的内容来改进由照相机捕捉的图像和视频。例如,对诸如面部的对象的检测可以允许基于检测对象的位置、移动和照明条件来控制照相机参数,诸如焦距和白平衡。然而,可靠的目标检测技术通常是一个计算密集型、耗电量大且离线的过程。本专利技术合理设置了检测帧和跟踪帧的分配,设置合理的检测和跟踪规则,减小综合的计算量,加快计算速度和跟踪的实时性;又优化了用于检测和跟踪的神经网络结构,这不仅可以减小计算量,快速训练神经网络,快速降低损失,提高追踪的精度。
技术实现思路
本专利技术的目的在于提供一种实时视频流对象检测和跟踪方法,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种实时视频流对象检测和跟踪方法,包括以下步骤:A、对输入视频的第一帧子集执行对象检测;B、在第一帧子集中的第一检测帧中检测物体和物体位置;C、在第一检测帧之后,跟踪检测到的对象以更新输入视频的第二帧子集上的对象位置,其中第一帧子集和第二帧子集不重叠。优选的,对所述输入视频进行划分,使得所述第一帧子集对应于每第N个帧,N是所选择的数量,并且所述第二帧子集对应于其余的帧。优选的,当在第一检测帧之后的选定数量的连续帧中没有检测到对象时结束跟踪;当对象的跟踪分数低于跟踪阈值时结束跟踪。r>优选的,基于在第一检测帧中检测到的对象的特征来分配跟踪分数;基于检测对象的属性,在帧的第一子集上确定每个检测对象的跟踪阈值。优选的,将ID与第一帧子集的检测对象相关联;基于所述ID来关联在第一子集的不同帧中检测到的对象;在第一子集的帧上确定对象的边界框;以及在第二子集的帧上确定边界框的变化;当在第一子集中的第二检测帧上未检测到对象时,在第二检测帧上跟踪该对象。优选的,一种实时视频流对象跟踪系统,包括对象检测单元,对象跟踪单元,数据关联单元;其中对象检测单元用于对输入视频的帧的第一子集执行对象检测;对象跟踪单元用于基于每个检测到的对象的跟踪阈值,在输入视频的帧的第二子集上跟踪检测单元先前检测到的对象的位置;其中第二子集和第一子集是互斥的;所述对象检测单元包含帧存储器、神经网络权重、检测神经网络和裁剪单元;该神经网络是以级联卷积神经网络MTCNN为基础进行优化的结构,该神经网络包含三个子网络,分别称之为P-Net,R-Net,O-Net,三个网络组成一个级联结构;基于检测神经网络确定的对象的位置裁剪存储在帧存储器中的检测帧,裁剪后的对象图像提供给对象跟踪单元、跟踪神经网络和对象分析单元。优选的,所述对象跟踪单元包含神经网络权重和跟踪神经网络,其中,权重信息是预先训练好的参数;该神经网络是以级联卷积神经网络MTCNN为基础进行优化的结构,该神经网络包含三个子网络,分别称之为P-Net,R-Net,O-Net,三个网络组成一个级联结构。优选的,所述P-Net由四层卷积组成,第一层卷积核尺寸为3×3;第二层卷积核尺寸为3×3;第三层卷积核尺寸为1×1;第四层卷积又包括两个卷积层,第一个卷积层卷积核尺寸为1×1,输出一个通道称为置信度,用sigmoid激活,用于检测是否存在对象,并设定一个阈值,如果输出值大于该阈值,则判断为有对象。第二层卷积层卷积核尺寸为1×1,输出四个通道称为偏移量,用relu激活,用来确定对象位置;所述R-Net由五层卷积组成,第一层卷积核尺寸为3×3;第二层卷积核尺寸为3×3;第三层卷积核尺寸为2×2;第四层卷积核尺寸为2×2;第五层卷积又包括两个卷积层,第一个卷积层卷积核尺寸为1×1,输出一个通道称为置信度,用sigmoid激活,用于检测是否存在对象,并设定一个阈值,如果输出值大于该阈值,则判断为有对象。第二层卷积层卷积核尺寸为1×1,输出四个通道称为偏移量,用relu激活,用来确定对象位置;所述O-Net由五层卷积组成,第一层卷积核尺寸为3×3;第二层卷积核尺寸为3×3;第三层卷积核尺寸为3×3;第四层卷积核尺寸为3×3;第五层卷积又包括两个卷积层。第一个卷积层卷积核尺寸为1×1,输出一个通道称为置信度,用sigmoid激活,用于检测是否存在对象,并设定一个阈值,如果输出值大于该阈值,则判断为有对象。第二层卷积层卷积核尺寸为1×1,输出四个通道称为偏移量,用relu激活,用来确定对象位置。优选的,所述数据关联单元包含对象分析单元,控制单元;所述对象分析单元通过分析裁剪单元提供的对象图像可以确定检测帧上位置以外的对象的属性;由对象分析单元确定的对象属性可以包括:面部光亮程度、面部相对于照相机的姿势或角度、眼睛位置,以及眼睛是否闭眼或眨眼;所述控制单元判断对象检测单元在第一检测帧中检测到的对象是否与另一检测帧中检测到的对象相同;控制单元还将对象分析单元在检测帧上确定的对象属性与对象跟踪单元在非检测帧上跟踪的对象相关联。优选的,对所述输入视频进行划分,以使得所述第一子集的帧包括所述输入视频的每第N帧,N为预定数量,并且其余帧包括在所述第二子集中;当在第一子集的预定数量的连续帧中未检测到对象时,跟踪单元停止跟踪该对象;当对象的跟踪分数低于该对象的跟踪阈值时,跟踪单元结束跟踪该对象;其中:检测单元基于各自检测对象的属性和各自检测对象的背景确定第一子集帧上每个检测对象的跟踪阈值;还包括:数据关联单元,用于将ID与第一子集帧中检测到的对象相关联;其中:检测单元在第一子集帧上确定对象的包围盒;跟踪单元在第二子集帧上确定包围盒中的变化;还包括:当在检测帧中未检测到对象时,跟踪单元在检测帧上跟踪先前检测到的对象。与现有技术相比,本专利技术的有益效果是:本专利技术合理设置了检测帧和跟踪帧的分配,设置合理的检测和跟踪规则,减小综合的计算量,加快计算速度和跟踪的实时性;又优化了用于检测和跟踪的神经网络结构,这不仅可以减小计算量,快速训练神经网络,快速降低损失,提高追踪的精度。附图说明图1为本专利技术的视频图像采集分析系统框架图。图2为本专利技术的检测和跟踪系统框架图。图3为本专利技术的检测和跟踪流程图。图4为本专利技术的具体单元的连接方法流程图。图5为本专利技术具有移动面部对象的视频序列的检测跟踪示例图。图6为本专利技术用于跟踪终止的示例数据集示意图。图7为本专利技术用于跟踪终止的示例数据集中的一个示意图。图8为本专利技术用于训练神经网络权重的级联神经网络结构图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术提供一种技术方案:一种实时视频流对象检测和跟踪方法,包括以下步骤:A、对输入视频的第一帧子本文档来自技高网...

【技术保护点】
1.一种实时视频流对象检测和跟踪方法,其特征在于:包括以下步骤:/nA、对输入视频的第一帧子集执行对象检测;/nB、在第一帧子集中的第一检测帧中检测物体和物体位置;/nC、在第一检测帧之后,跟踪检测到的对象以更新输入视频的第二帧子集上的对象位置,其中第一帧子集和第二帧子集不重叠。/n

【技术特征摘要】
1.一种实时视频流对象检测和跟踪方法,其特征在于:包括以下步骤:
A、对输入视频的第一帧子集执行对象检测;
B、在第一帧子集中的第一检测帧中检测物体和物体位置;
C、在第一检测帧之后,跟踪检测到的对象以更新输入视频的第二帧子集上的对象位置,其中第一帧子集和第二帧子集不重叠。


2.根据权利要求1所述的一种实时视频流对象检测和跟踪方法,其特征在于:对所述输入视频进行划分,使得所述第一帧子集对应于每第N个帧,N是所选择的数量,并且所述第二帧子集对应于其余的帧。


3.根据权利要求1所述的一种实时视频流对象检测和跟踪方法,其特征在于:当在第一检测帧之后的选定数量的连续帧中没有检测到对象时结束跟踪;当对象的跟踪分数低于跟踪阈值时结束跟踪。


4.根据权利要求3所述的一种实时视频流对象检测和跟踪方法,其特征在于:基于在第一检测帧中检测到的对象的特征来分配跟踪分数;基于检测对象的属性,在帧的第一子集上确定每个检测对象的跟踪阈值。


5.根据权利要求1所述的一种实时视频流对象检测和跟踪方法,其特征在于:将ID与第一帧子集的检测对象相关联;基于所述ID来关联在第一子集的不同帧中检测到的对象;在第一子集的帧上确定对象的边界框;以及在第二子集的帧上确定边界框的变化;当在第一子集中的第二检测帧上未检测到对象时,在第二检测帧上跟踪该对象。


6.一种实时视频流对象跟踪系统,其特征在于:包括对象检测单元,对象跟踪单元,数据关联单元;其中对象检测单元用于对输入视频的帧的第一子集执行对象检测;对象跟踪单元用于基于每个检测到的对象的跟踪阈值,在输入视频的帧的第二子集上跟踪检测单元先前检测到的对象的位置;其中第二子集和第一子集是互斥的;所述对象检测单元包含帧存储器、神经网络权重、检测神经网络和裁剪单元;该神经网络是以级联卷积神经网络MTCNN为基础进行优化的结构,该神经网络包含三个子网络,分别称之为P-Net,R-Net,O-Net,三个网络组成一个级联结构;基于检测神经网络确定的对象的位置裁剪存储在帧存储器中的检测帧,裁剪后的对象图像提供给对象跟踪单元、跟踪神经网络和对象分析单元。


7.根据权利要求6所述的一种实时视频流对象跟踪系统,其特征在于:所述对象跟踪单元包含神经网络权重和跟踪神经网络,其中,权重信息是预先训练好的参数;该神经网络是以级联卷积神经网络MTCNN为基础进行优化的结构,该神经网络包含三个子网络,分别称之为P-Net,R-Net,O-Net,三个网络组成一个级联结构。


8.根据权利要求6或7所述的一种实时视频流对象跟踪系统,其特征在于:所述P-Net由四层卷积组成...

【专利技术属性】
技术研发人员:羊爱英燕硕梁劲张亚斌张泽
申请(专利权)人:南京稻子菱机电设备有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1