一种多目标追踪的行为识别方法和装置制造方法及图纸

技术编号:30027107 阅读:15 留言:0更新日期:2021-09-15 10:14
本发明专利技术公开了多目标追踪的行为识别方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括获取多帧视频流,以进行目标检测,确定具有编号的对象的目标检测框;其中,对象编号与目标检测框具有映射关系;基于目标检测框对所述对象进行追踪,以识别视频流中所述对象连续帧的行为信息,进而通过预设的预测模型得到所述对象的未来行为信息。从而,本发明专利技术的实施方式能够解决现有的行为识别技术成本高,精准度低的问题。精准度低的问题。精准度低的问题。

【技术实现步骤摘要】
一种多目标追踪的行为识别方法和装置


[0001]本专利技术涉及计算机
,尤其涉及一种多目标追踪的行为识别方法和装置。

技术介绍

[0002]目前的行为识别技术,一般包括基于传统传感器的行为识别:人物佩带传感器(重力传感器),根据加速度及方向的变化识别出行为。基于光流算法等传统算法的单帧行为识别:多帧图片先提取出光流特征,即每帧中的光向量的运动方向,然后再放入神经网络中预测行为。基于深度学习单帧的行为识别:通过采集摄像头中每一帧的图片,对其每帧进行目标检测算法,即找出图片中物体及人的真实边框和类别标签。基于深度学习视频单目标的行为识别:对视频帧中的整个图片序列进行时序提取,其中每帧大约全部区域都占据了行动者,对其进行行为分类。
[0003]在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:
[0004]现有行为识别技术中传感器主要存在的问题:成本高且佩戴麻烦,被检测者需长时间随身佩戴传感器,带来了生活中的不便利,且需要定期更换电池。而传统光流等算法计算量大,预处理慢,很难达到实时。基于深度学习单帧的行为识别,时序性的连续行为识别误差很大。另外,基于深度学习视频单目标的行为识别不能同时监控视频中的多个人,当前算法都是基于人占据整张图片的区域进行识别,人如果在小目标区域,以整张图片作为信息就会增加了很多冗余因素,准确率很低,效果很差。

技术实现思路

[0005]有鉴于此,本专利技术实施例提供一种多目标追踪的行为识别方法和装置,能够解决现有的行为识别技术成本高,精准度低的问题。
[0006]为实现上述目的,根据本专利技术实施例的一个方面,提供了一种多目标追踪的行为识别方法,包括获取多帧视频流,以进行目标检测,确定具有编号的对象的目标检测框;其中,对象编号与目标检测框具有映射关系;基于目标检测框对所述对象进行追踪,以识别视频流中所述对象连续帧的行为信息,进而通过预设的预测模型得到所述对象的未来行为信息。
[0007]可选地,获取多帧视频流,以进行目标检测,包括:
[0008]获取多帧视频流,在基于darknet53的yolov3网络中使用三个尺度进行特征融合,在融合后的特征图上进行目标检测。
[0009]可选地,识别视频流中所述对象连续帧的行为信息,包括:
[0010]获取当前帧中对象编号和目标检测框,判断在预设的连续帧数内,是否存在绑定的对象编号与对应的目标检测框,若存在则截取连续帧中出现的每个目标检测框中的图片以识别连续帧的行为信息;若不存在则删除该对象编号与对应的目标检测框。
[0011]可选地,通过预设的预测模型得到所述对象的未来行为信息之前,包括:
[0012]基于3D卷积网络,在时间上和空间上分别增加注意力,得到预测模型。
[0013]另外,本专利技术还提供了一种多目标追踪的行为识别装置,包括获取模块,用于获取多帧视频流,以进行目标检测,确定具有编号的对象的目标检测框;其中,对象编号与目标检测框具有映射关系;处理模块,用于基于目标检测框对所述对象进行追踪,以识别视频流中所述对象连续帧的行为信息,进而通过预设的预测模型得到所述对象的未来行为信息。
[0014]可选地,所述获取模块获取多帧视频流,以进行目标检测,包括:
[0015]获取多帧视频流,在基于darknet53的yolov3网络中使用三个尺度进行特征融合,在融合后的特征图上进行目标检测。
[0016]可选地,所述处理模块识别视频流中所述对象连续帧的行为信息,包括:
[0017]获取当前帧中对象编号和目标检测框,判断在预设的连续帧数内,是否存在绑定的对象编号与对应的目标检测框,若存在则截取连续帧中出现的每个目标检测框中的图片以识别连续帧的行为信息;若不存在则删除该对象编号与对应的目标检测框。
[0018]可选地,所述处理模块通过预设的预测模型得到所述对象的未来行为信息之前,包括:
[0019]基于3D卷积网络,在时间上和空间上分别增加注意力,得到预测模型。
[0020]上述专利技术中的一个实施例具有如下优点或有益效果:因为采用获取多帧视频流,以进行目标检测,确定具有编号的对象的目标检测框;基于目标检测框对所述对象进行追踪,以识别视频流中所述对象连续帧的行为信息,进而通过预设的预测模型得到所述对象的未来行为信息的技术手段,所以克服了现有的行为识别技术成本高,精准度低的技术问题。
[0021]上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
[0022]附图用于更好地理解本专利技术,不构成对本专利技术的不当限定。其中:
[0023]图1是根据本专利技术第一实施例的多目标追踪的行为识别方法的主要流程的示意图;
[0024]图2是根据本专利技术实施例的预测模型的示意图;
[0025]图3a是根据本专利技术实施例的预测模型中通过主动性注意力得到的时间注意力示意图;
[0026]图3b是根据本专利技术实施例的预测模型中通过主动性注意力得到的空间示意图;
[0027]图4a是根据本专利技术实施例的预测模型中基于特征图的注意力得到的时间注意力示意图;
[0028]图4b是根据本专利技术实施例的预测模型中基于特征图的注意力得到的空间注意力示意图;
[0029]图5是根据本专利技术另一实施例的多目标追踪的行为识别方法的主要流程的示意图;
[0030]图6是根据本专利技术再一实施例的多目标追踪的行为识别方法的主要流程的示意图;
[0031]图7是根据本专利技术实施例的多目标追踪的行为识别装置的主要模块的示意图;
[0032]图8是本专利技术实施例可以应用于其中的示例性系统架构图;
[0033]图9是适于用来实现本专利技术实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
[0034]以下结合附图对本专利技术的示范性实施例做出说明,其中包括本专利技术实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本专利技术的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0035]图1是根据本专利技术第一实施例的多目标追踪的行为识别方法的主要流程的示意图,如图1所示,所述多目标追踪的行为识别方法包括:
[0036]步骤S101,获取多帧视频流,以进行目标检测,确定具有编号的对象的目标检测框。
[0037]在一些实施例中,获取多帧视频流,在基于darknet53的yolov3网络中使用三个尺度进行特征融合,在融合后的特征图上进行目标检测。其中,darknet53网络结构基本由1*1与3*3卷积构成,因为网络中有53个卷积层。yolov3是基于darknet53用在图片分类,使用了darknet53的三层特征层,预测的三个特征层大小分别是52,26,13。
[0038]作为实施例,本专利技术网络可以为darknet53的yol本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多目标追踪的行为识别方法,其特征在于,包括:获取多帧视频流,以进行目标检测,确定具有编号的对象的目标检测框;其中,对象编号与目标检测框具有映射关系;基于目标检测框对所述对象进行追踪,以识别视频流中所述对象连续帧的行为信息,进而通过预设的预测模型得到所述对象的未来行为信息。2.根据权利要求1所述的装置,其特征在于,获取多帧视频流,以进行目标检测,包括:获取多帧视频流,在基于darknet53的yolov3网络中使用三个尺度进行特征融合,在融合后的特征图上进行目标检测。3.根据权利要求1所述的方法,其特征在于,识别视频流中所述对象连续帧的行为信息,包括:获取当前帧中对象编号和目标检测框,判断在预设的连续帧数内,是否存在绑定的对象编号与对应的目标检测框,若存在则截取连续帧中出现的每个目标检测框中的图片以识别连续帧的行为信息;若不存在则删除该对象编号与对应的目标检测框。4.根据权利要求1-3中任一所述的方法,其特征在于,通过预设的预测模型得到所述对象的未来行为信息之前,包括:基于3D卷积网络,在时间上和空间上分别增加注意力,得到预测模型。5.一种多目标追踪的行为识别装置,其特征在于,包括:获取模块,用于获取多帧视频流,以进行目标检测,确定具有编号的对象的目标检测框;其中,对象编号与目标检测框具有映射关系;处理模块,用于基于目标检测框对所述...

【专利技术属性】
技术研发人员:胡淼枫徐达炜
申请(专利权)人:北京京东世纪贸易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1