时序行为检测、响应方法及装置、设备、介质制造方法及图纸

技术编号:27469518 阅读:24 留言:0更新日期:2021-03-02 17:34
本申请公开一种时序行为检测、响应方法及装置、设备、介质,所述检测方法包括:对视频流进行特征提取获得包含空间和时序特征信息的空时特征图;依据所述空时特征图确定多个时序候选框,获得所述时序候选框的偏移量及其包含目标时序行为的概率分数,根据所述概率分数优选出具有较高置信度的若干个候选框;根据所述时序候选框从所述空时特征图中对应提取包含了时序特征的待池化特征图,将其池化为结果特征图;将结果特征图输出至全连接层,由全连接层完成视频行为分类和回归,输出所述视频流的分类结果数据。本申请能够提升人工神经网络识别视频行为的准确率,显著提升视频行为在线检测效果。测效果。测效果。

【技术实现步骤摘要】
时序行为检测、响应方法及装置、设备、介质


[0001]本申请属于图像识别技术,具体涉及一种时序行为检测、响应方法及其各自相应的神经网络实现装置、电子设备、非易失性存储介质。

技术介绍

[0002]采用神经网络进行视频时序行为识别的技术日益成熟,时下较为流行视频行为识别方法,采用R-C3D算法实现。R-C3D是Region Convolutional 3D Network for Temporal Activity Detection(时序活动检测用区域卷积3D网络)的缩写,该算法主要是以C3D网络为基础,借鉴了Faster RCNN的思路,对于任意的输入视频L,先进行proposal(提议,旨在提供时序候选框),然后进行池化(3D-pooling),最后进行分类和回归操作。
[0003]R-C3D主要包括特征提取网络、时序候选框建议模块、行为识别网络,对于输入的视频,先通过C3D多层卷积网络提取后续供时序候选框建议模块和行为识别网络共享的特征,然后通过时序候选框建议模块优选出存在目标行为的若干候选框,最后,由行为识别网络对这些候选框中的目标行为进行分类,从而实现行为识别。
[0004]R-C3D算法的实施,可以针对任意长度视频、任意长度行为进行端到端的检测,其检测速度很快,可达此前同类其他网络的5倍,实测多种不同数据集,效果均较佳,具有通用性,广受业内欢迎。
[0005]但是,R-C3D算法基于锚点回归策略实现,通过假定时序上等长的多个多锚点区来生成候选框,其在进行池化时,采用RoI Pooling(感应趣区域池化)的方式来对各个候选框相对应的特征进行提取后,直接送至全连接层进行分类和回归,在这一过程中,导致时序特征丢失,导致神经网络的整体分类能力较弱。

技术实现思路

[0006]本申请的目的旨在提供一种时序行为检测方法,在此基础上提供一种应用该方法的时序行为响应方法,同时提供一种神经网络实现装置,以及与该视频响应方法相应的一种电子设备和一种非易失性存储介质。
[0007]为满足本申请的各个目的,本申请采用如下技术方案:
[0008]适应于本申请的目的之一而提供的一种时序行为检测方法,包括如下步骤:
[0009]对视频流进行特征提取获得包含空间和时序特征信息的空时特征图;
[0010]依据所述空时特征图确定多个时序候选框,获得所述时序候选框的偏移量及其包含目标时序行为的概率分数,根据所述概率分数优选出具有较高置信度的若干个候选框;
[0011]根据所述时序候选框从所述空时特征图中对应提取包含了时序特征的待池化特征图,将其池化为结果特征图;
[0012]将结果特征图输出至全连接层,由全连接层完成视频行为分类和回归,输出所述视频流的分类结果数据。
[0013]一类实施例中,根据所述时序候选框从所述空时特征图中对应提取包含了时序特
征的待池化特征图,将其池化为结果特征图的步骤,包括:
[0014]根据优选出的各个候选框,从所述空时特征图中提取出对应的待池化特征图;
[0015]将待池化特征图分割成多个空时子特征图,在多个空时子特征之间保留该候选框相对应的时序特征;
[0016]适用最大值池化函数对所述空时子特征图进行池化获得结果特征图。
[0017]另一类实施例中,根据所述时序候选框从所述空时特征图中对应提取包含了时序特征的待池化特征图,将其池化为结果特征图的步骤,包括:
[0018]根据优选出的各个候选框所占时序长度从所述空时特征图中提取其本身及其之前与之后的属于连续片段的待池化特征图;
[0019]将各个片段的待池化特征图分割成空时子特征图,且在多个空时子特征之间保留该候选框相对应的时序特征;
[0020]适用最大值池化函数分别对各个片段的所述空时子特征图进行池化并统一为结果特征图。
[0021]再一类实施例中,将候选框池化为多个具有相同维度的特征图并输出至全连接层的步骤中,包括:
[0022]根据优选出的各个候选框所占时序长度从所述空时特征图中提取其本身及其之前与之后的属于连续片段的待池化特征图;
[0023]将各个片段的待池化特征图分割成空时子特征图,且在多个空时子特征之间保留该候选框相对应的时序特征;
[0024]适用最大值池化函数分别对各个片段的所述空时子特征图进行池化并统一为结果特征图;
[0025]基于所述各个片段的空时子特征图及结果特征图,在保留其结构化编码特征的基础上,对特征在同一空间点上沿着时序维度进行相关性计算,获得相应的编码特征相应的结果特征图。
[0026]具体的实施例中,对视频流进行特征提取获得包含空间和时序特征信息的空时特征图的步骤中:利用C3D网络的多个卷积层,在保持时序分辨率不变的条件下,将所述视频流逐级下采样降低空间分辨率,获得所述的空时特征图。
[0027]较佳的实施例中,依据所述空时特征图确定多个时序候选框,获得所述时序候选框的偏移量及其包含目标时序行为的概率分数,根据所述概率分数优选出具有较高置信度的若干个候选框的步骤,包括:
[0028]依据所述空时特征图进行池化,获得仅保留了时序特征信息的一维特征图;
[0029]评估所述一维特征图中各个时序点的控制区域属于目标时序行为内的第一概率分数,并行地,评估所述一维特征图的时序点中一系列候选框的偏移量及该候选框包含目标时序行为的第二概率分数;
[0030]根据所述第一概率分数和第二概率分数优选出具有较高置信度的若干个候选框。
[0031]进一步的实施例中,评估所述一维特征图中各个时序点的控制区域属于目标时序行为内的第一概率分数的步骤,包括:
[0032]采用预设长度的时序窗口在所述一维特征图上滑动以获取每个时序点的特征及其上下文信息;
[0033]将该时序窗口对应的特征全连接到预设的前景与背景二分类网络,确定出相应的时序点控制区域属于目标时序行为内的第一概率分数。
[0034]进一步的实施例中,评估所述一维特征图的时序点中一系列候选框的偏移量及该候选框包含目标时序行为的第二概率分数的步骤,包括:
[0035]采用预设长度的时序窗口在所述一维特征图上滑动以获取每个时序点的特征及其上下文信息;
[0036]将该时序窗口对应的特征全连接到预设的与行为类别无关的二分类网络,确定出相应的时序点控制区域对应的候选框的偏移量及该候选框包含目标时序行为的第二概率分数。
[0037]进一步实施例中,根据所述概率分数优选出具有较高置信度的若干个候选框的步骤,包括:
[0038]统计各个候选框相对应的所述第一概率分数获得各候选框的第一概率总分;
[0039]将各个候选框统相对应的第一概率总分及其第二概率分数进行加权平均,获得加权总分;
[0040]对所述加权总分进行排序,选出具有较高置信度的若干个候选框。
[0041]适应于本申请的目的之一而提供的一种时序行为响应方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种时序行为检测方法,其特征在于,包括如下步骤:对视频流进行特征提取获得包含空间和时序特征信息的空时特征图;依据所述空时特征图确定多个时序候选框,获得所述时序候选框的偏移量及其包含目标时序行为的概率分数,根据所述概率分数优选出具有较高置信度的若干个候选框;根据所述时序候选框从所述空时特征图中对应提取包含了时序特征的待池化特征图,将其池化为结果特征图;将结果特征图输出至全连接层,由全连接层完成视频行为分类和回归,输出所述视频流的分类结果数据。2.根据权利要求1所述的方法,其特征在于,根据所述时序候选框从所述空时特征图中对应提取包含了时序特征的待池化特征图,将其池化为结果特征图的步骤,包括:根据优选出的各个候选框,从所述空时特征图中提取出对应的待池化特征图;将待池化特征图分割成多个空时子特征图,在多个空时子特征之间保留该候选框相对应的时序特征;适用最大值池化函数对所述空时子特征图进行池化获得结果特征图。3.根据权利要求1所述的方法,其特征在于,根据所述时序候选框从所述空时特征图中对应提取包含了时序特征的待池化特征图,将其池化为结果特征图的步骤,包括:根据优选出的各个候选框所占时序长度从所述空时特征图中提取其本身及其之前与之后的属于连续片段的待池化特征图;将各个片段的待池化特征图分割成空时子特征图,且在多个空时子特征之间保留该候选框相对应的时序特征;适用最大值池化函数分别对各个片段的所述空时子特征图进行池化并统一为结果特征图。4.根据权利要求1所述的方法,其特征在于,将候选框池化为多个具有相同维度的特征图并输出至全连接层的步骤中,包括:根据优选出的各个候选框所占时序长度从所述空时特征图中提取其本身及其之前与之后的属于连续片段的待池化特征图;将各个片段的待池化特征图分割成空时子特征图,且在多个空时子特征之间保留该候选框相对应的时序特征;适用最大值池化函数分别对各个片段的所述空时子特征图进行池化并统一为结果特征图;基于所述各个片段的空时子特征图及结果特征图,在保留其结构化编码特征的基础上,对特征在同一空间点上沿着时序维度进行相关性计算,获得相应的编码特征相应的结果特征图。5.根据权利要求1所述的方法,其特征在于,对视频流进行特征提取获得包含空间和时序特征信息的空时特征图的步骤中:利用C3D网络的多个卷积层,在保持时序分辨率不变的条件下,将所述视频流逐级下采样降低空间分辨率,获得所述的空时特征图。6.根据权利要求1至5中任意一项所述的方法,其特征在于:依据所述空时特征图确定多个时序候选框,获得所述时序候选框的偏移量及其包含目标时序行为的概率分数,根据所述概率分数优选出具有较高置信度的若干个候选框的步骤,包括:
依据所述空时特征图进行池化,获得仅保留了时序特征信息的一维特征图;评估所述一维特征图中各个时序点的控制区域属于目标时序行...

【专利技术属性】
技术研发人员:陈广
申请(专利权)人:广州华多网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1