采样方法、模型生成方法、视频行为识别方法及装置制造方法及图纸

技术编号:23984970 阅读:23 留言:0更新日期:2020-04-29 13:05
本发明专利技术提供了一种视频行为数据采样方法、视频行为识别模型生成方法、视频行为识别方法、电子设备及计算机可读存储介质,其中,该采样方法包括:从视频的编码数据中提取所述视频的第一中间帧的编码信息;所述编码信息包括运动向量;根据所述第一中间帧的不同编码单元的编码信息之间的差异情况确定所述第一中间帧的特征区域;在确定的所述第一中间帧的特征区域对应的编码单元的编码信息中的运动向量大于或等于设定运动阈值的情况下,根据所述第一中间帧的特征区域确定第一取样单元;根据所述第一取样单元确定对所述视频采样的数据。通过上述方案本发明专利技术能够对视频进行有效采样,从而提高视频行为识别的效果。

Sampling method, model generation method, video behavior recognition method and device

【技术实现步骤摘要】
采样方法、模型生成方法、视频行为识别方法及装置
本专利技术涉及视频分析
,尤其涉及一种采样方法、模型生成方法、视频行为识别方法及装置。
技术介绍
行为识别是视频分析的重要一环,在安防、行为分析等领域有众多应用,近些年来面向视频的行为识别算法受到了很大关注。视频行为识别可以分为基于光流的传统算法和基于深度学习的智能算法。基于光流的行为识别算法,以像素为计算单位,对视频中的某几帧进行处理,计算量大但稳定性较好。以提升的密集轨迹算法(IDT,ImprovedDenseTrajectories)为代表,包括密集采样特征点、特征点轨迹跟踪和基于轨迹的特征提取几个部分。基于深度学习的智能行为识别算法以图像智能识别算法为基础,近几年取得了超过传统算法的精度。智能行为识别主要分为双流算法以及3d卷积网络两类。双流算法使用两个神经网络分别提取视频的时间空间信息,并将两股信息融合最终得到识别结果。C3D网络通过3d卷积核直接提取视频数据的时间和空间特征,此种方法速度较快,能达到上百FPS。然而,基于光流的行为识别算法以像素为计算单位,每处理一个帧,需要对图像中所有的像素进行计算。这种方法计算量大,且随着视频清晰度上升、像素数量增加,这种算法的计算速度将受到严重影响,因此不适用于高清视频的行为分析。基于深度学习的双流神经网在计算时域信息时使用光流信息。此光流信息由像素获取,因此在分析高清视频的行为时计算速度较慢。同样基于深度学习的3D卷积神经网络(C3D)虽然速度较快,但是精度相较于双流神经网络偏低。因此,基于深度学习的智能行为识别算法缺少更有效的视频采样方法。
技术实现思路
本专利技术提供了一种采样方法、模型生成方法、视频行为识别方法及装置,以对视频进行有效采样,从而提高视频行为识别的效果。为了达到上述目的,本专利技术采用以下方案实现:根据本专利技术实施例的一个方面,提供了一种视频行为数据采样方法,包括:从视频的编码数据中提取所述视频的第一中间帧的编码信息;所述编码信息包括运动向量;根据所述第一中间帧的不同编码单元的编码信息之间的差异情况确定所述第一中间帧的特征区域;在确定的所述第一中间帧的特征区域对应的编码单元的编码信息中的运动向量大于或等于设定运动阈值的情况下,根据所述第一中间帧的特征区域确定第一取样单元;根据所述第一取样单元确定对所述视频采样的数据。根据本专利技术实施例的另一个方面,提供了一种视频行为识别模型生成方法,包括:利用上述实施例所述的视频行为数据采样方法分别对多个视频进行采样,并根据每个所述视频的采样结果生成一个训练样本;利用所有所述视频对应形成的训练样本对初始神经网络进行训练,得到视频行为识别模型。根据本专利技术实施例的又一个方面,提供了一种视频行为识别方法,包括:利用上述实施例所述的视频行为识别模型生成方法生成的视频行为识别模型识别设定视频中的行为。根据本专利技术实施例的再一个方面,提供了一种电子设备,其上存储有计算机程序,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述实施例所述方法的步骤。根据本专利技术实施例的另一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述实施例所述方法的步骤。本专利技术实施例的视频行为数据采样方法、视频行为识别模型生成方法、视频行为识别方法、电子设备及计算机可读存储介质,能够获得的视频采样图像集的运动核心区域,减少视频中的冗余信息对神经网络训练的影响,并能保留视频中对神经网络训练最有效的信息,因此,能够实现对视频进行有效采样,从而提升神经网络的学习精度,从而提高视频行为识别的效果。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:图1是本专利技术一实施例的视频行为数据采样方法的流程示意图;图2是本专利技术一实施例的视频行为识别模型生成方法的流程示意图;图3是本专利技术一实施例的整体流程示意图;图4是本专利技术一具体实施例的视频采样方法的流程示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本专利技术实施例做进一步详细说明。在此,本专利技术的示意性实施例及其说明用于解释本专利技术,但并不作为对本专利技术的限定。专利技术人发现,目前基于深度学习的视频行为识别算法之所以需要更有效的视频采样方法,以获取更适合作为神经网络输入的数据,具体存在以下三个问题。第一,视频数据中存在大量的时间、空间冗余数据:一个视频场景中,两相邻帧图像变化不大;单帧中,存在某一连续区域颜色相近或一致。这些冗余信息占据了神经网络的输入,但是不能为其提供新信息,对神经网络的训练造成了阻碍。并且,随着5G技术的出现,高分辨率的图像将会成为视频分析的主要数据来源,并且带来了更多的冗余数据,这将增加神经网络的计算负荷以及训练难度。第二,由于视频是多帧图像的序列,难以使用整段视频来训练神经网络,对于高清视频数据更是如此。现有技术多采取分段或者采样的方式选取某几帧进行神经网络训练,如随机选择、使用前置的一级神经网络选取。但不良选择可能导致视频信息的缺失,影响识别精度。第三,由于神经网络输入的像素数量有限制,现有技术通常采用下采样的方式减少输入的像素数量,但这种方法很可能造成有效信息的损失。当视频的运动区域占整个帧的范围较小时,这种下采样的方式将会弱化运动区域的信息。并且,这种损失分辨率的方式不能使视频行为识别从高分辨率视频中受益。专利技术人在进行面向视频行为识别的数据取样研究时,发现上述第一个问题是由行为识别算法所使用的神经网络导致的。由于视频行为识别由图像识别算法发展而来,现有的技术方案通常以一帧图像作为神经网络的输入单元。因此输入数据是未经压缩的、含有冗余数据的图像。专利技术人经过研究发现,可以通过使用已编码的视频流作为输入数据的方法来解决该问题。视频编码算法能够对冗余数据进行有效压缩,且编码结果同时包含了时域和空域信息,可以作为获取去冗余数据的途径。视频编码通过选择关键帧,再对其余各帧进行帧内、帧间预测,随后编码预测结果和真实值之间残差的方法,在视频传输、存储领域实现了很高的压缩率。预测算法选取的越合理,残差越小。因此在视频编码过程中,帧内预测和帧间预测对视频的时间空间特征已经有所描述。通过分析视频流中某一区域的编码方式以及残差,即可得到该区域时间空间信息。相比于直接使用图像进行神经网络训练,使用压缩数据不仅仅输入数据更少,神经网络训练计算量小,而且数据冗余少,神经网络更容易捕捉到有效信息。现有算法中有以压缩数据作为输入的神经网络算法,但其并未考虑预测算法中包含的时域空域特征信息。专利技术人在本文档来自技高网
...

【技术保护点】
1.一种视频行为数据采样方法,其特征在于,包括:/n从视频的编码数据中提取所述视频的第一中间帧的编码信息;所述编码信息包括运动向量;/n根据所述第一中间帧的不同编码单元的编码信息之间的差异情况确定所述第一中间帧的特征区域;/n在确定的所述第一中间帧的特征区域对应的编码单元的编码信息中的运动向量大于或等于设定运动阈值的情况下,根据所述第一中间帧的特征区域确定第一取样单元;/n根据所述第一取样单元确定对所述视频采样的数据。/n

【技术特征摘要】
1.一种视频行为数据采样方法,其特征在于,包括:
从视频的编码数据中提取所述视频的第一中间帧的编码信息;所述编码信息包括运动向量;
根据所述第一中间帧的不同编码单元的编码信息之间的差异情况确定所述第一中间帧的特征区域;
在确定的所述第一中间帧的特征区域对应的编码单元的编码信息中的运动向量大于或等于设定运动阈值的情况下,根据所述第一中间帧的特征区域确定第一取样单元;
根据所述第一取样单元确定对所述视频采样的数据。


2.如权利要求1所述的视频行为数据采样方法,其特征在于,根据所述第一中间帧的不同编码单元的编码信息之间的差异情况确定所述第一中间帧的特征区域,包括:
在所述第一中间帧的不同编码单元的编码信息中的运动向量两两之间的差异小于或等于设定运动差异阈值的情况下,根据所述第一中间帧的所述编码单元对应的区域确定所述第一中间帧的特征区域。


3.如权利要求2所述的视频行为数据采样方法,其特征在于,所述编码信息还包括预测残差;
在所述第一中间帧的不同编码单元的编码信息中的运动向量两两之间的差异小于或等于设定运动差异阈值的情况下,根据所述第一中间帧的所述编码单元对应的区域确定所述第一中间帧的特征区域,包括:
在所述第一中间帧的不同编码单元的编码信息中的运动向量两两之间的差异小于或等于设定运动差异阈值,且所述第一中间帧的各所述编码单元的编码信息中的预测残差均小于或等于设定残差阈值的情况下,根据所述第一中间帧的所述编码单元对应的区域确定所述第一中间帧的特征区域。


4.如权利要求3所述的视频行为数据采样方法,其特征在于,在所述第一中间帧的不同编码单元的编码信息中的运动向量两两之间的差异小于或等于设定运动差异阈值的情况下,根据所述第一中间帧的所述编码单元对应的区域确定所述第一中间帧的特征区域,包括:
在所述第一中间帧的不同编码单元的编码信息中的运动向量两两之间的差异小于或等于设定运动差异阈值,但所述第一中间帧的各所述编码单元的编码信息中的预测残差大于设定残差阈值的情况下,若所述第一中间帧的所述不同编码单元的编码信息中的预测残差两两之间的差异小于或等于设定残差差异阈值,则根据所述第一中间帧的所述编码单元对应的区域确定所述第一中间帧的特征区域。


5.如权利要求2所述的视频行为数据采样方法,其特征在于,根据所述第一中间帧的所述编码单元对应的区域确定所述第一中间帧的特征区域,包括:
将所述第一中间帧的所有所述编码单元对应的区域确定为所述第一中间帧的特征区域。


6.如权利要求1所述的视频行为数据采样方法,其特征在于,所述编码信息还包括帧间预测方式;
根据所述第一中间帧的不同编码单元的编码信息之间的差异情况确定所述第一中间帧的特征区域,包括:
在所述第一中间帧的部分编码单元的编码信息中的帧间预测方式不同于所述第一中间帧的其余编码单元的编码信息中的帧间预测方式的情况下,根据所述第一中间帧的所述部分编码单元对应的区域确定所述第一中间帧的特征区域。


7.如权利要求1至6任一项所述的视频行为数据采样方法,其特征在于,
根据所述第一取样单元确定对所述视频采样的数据之前,所述方法还包括:
从所述视频的编码数据中提取所述视频的第二中间帧的包括运动向量的编码信息;
根据所述第二中间帧的不同编码单元的编码信息之间的差异情况确定所述第二中间帧的特征区域;
在所述第二中间帧的特征区域相对于所述第一中间帧的特征区域的范围变化小于或等于设定范围变化阈值的情况下,若确定的所述第二中间帧的特征区域对应的编码单元的编码信息中的运动向量大于或等于设定运动阈值,则根据所述第二中间帧的特征区域更新所述第一取样单元;
根据所述第一取样单元确定对所述视频采样的数据,包括:
根据更新后的所述第一取样单元确定对所述视频采样的数据。


8.如权利要求7所述的视频行为数据采样方法,其特征在于,在所述第二中间帧的特征区域相对于所述第一中间帧的特征区域的范围变化小于或等于设定范围变化阈值的情况下,若确定的所述第二中间帧的特征区域对应的编码单元的编码信息中的运动向量大于或等于设定运动阈值,则根据所述第二中间帧的特征区域更新所述第一取样单元,包括:
在所述第二中间帧的特征区域相对于所述第一中间帧的特征区域的范围变化小于或等于设定范围变化阈值的情况下,若确定的所述第二中间帧的特征区域对应的编码单元的编码信息中的运动向量大于或等于设定运动阈值,且所述第一取样单元中的帧间隔范围小于设定帧间隔阈值范围,则根据所述第二中间帧的特征区域更新所述第一取样单元。


9.如权利要求8所述的视频行为数据采样方法,其特征在于,在所述第二中间帧的特征区域相对于所述第一中间帧的特征区域的范围变化小于或等于设定范围变化阈值的情况下,若确定的所述第二中间帧的特征区域对应的编码单元的编码信息中的运动向量大于或等于设定运动阈值,则根据所述第二中间帧的特征区域更新所述第一取样单元之前,所述方法还包括:
在所述第二中间帧的特征区域相对于所述第一中间帧的特征区域的范围变化小于或等于设定范围变化阈值的情况下,若确定的所述第二中间帧的特征区域对应的编码单元的编码信息中的运动向量大于或等于设定运动阈值,但所述第一取样单元中的帧间隔范围等于设定帧间隔阈值范围,则根据所述第二中间帧的特征区域确定所述视频的第二取样单元;
根据所述第一取样单元确定对所述视频采样的数据,包括:
根据所述第一取样单元和所述第二取样单元确定对所述视频采样的数据。


10.如权利要求7所述的视频行为数据采样方法,其特征在于,
根据所述第一中间帧的特征区域确定第一取样单元,包括:
为所述第一中间帧的特征区域设置第一取样标志,以标记所述视频的第一取样单元的内容;
根据所述第二中间帧的特征区域更新所述第一取样单元,包括:
为所述第二中间帧的特征区域设...

【专利技术属性】
技术研发人员:鄢贵海赵巍岳
申请(专利权)人:中科驭数北京科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1