【技术实现步骤摘要】
时序行为检测、响应方法及装置、设备、介质
[0001]本申请属于图像识别技术,具体涉及一种时序行为检测、响应方法及其各自相应的神经网络实现装置、电子设备、非易失性存储介质。
技术介绍
[0002]采用神经网络进行视频时序行为识别的技术日益成熟,时下较为流行视频行为识别方法,采用R-C3D算法实现。R-C3D是Region Convolutional 3D Network for Temporal Activity Detection(时序活动检测用区域卷积3D网络)的缩写,该算法主要是以C3D网络为基础,借鉴了Faster RCNN的思路,对于任意的输入视频L,先进行proposal(提议,旨在提供时序候选框),然后进行池化(3D-pooling),最后进行分类和回归操作。
[0003]R-C3D主要包括特征提取网络、时序候选框建议模块、行为识别网络,对于输入的视频,先通过C3D多层卷积网络提取后续供时序候选框建议模块和行为识别网络共享的特征,然后通过时序候选框建议模块优选出存在目标行为的若干候选框,最后,由行为识别网络对这些候选框中的目标行为进行分类,从而实现行为识别。
[0004]R-C3D算法的实施,可以针对任意长度视频、任意长度行为进行端到端的检测,其检测速度很快,可达此前同类其他网络的5倍,实测多种不同数据集,效果均较佳,具有通用性,广受业内欢迎。
[0005]但是,R-C3D算法基于锚点回归策略实现,通过假定时序上等长的多个多锚点区来生成候选框,其在进行池化时,采用RoI Pool ...
【技术保护点】
【技术特征摘要】
1.一种时序行为检测方法,其特征在于,包括如下步骤:对视频流进行特征提取获得包含空间和时序特征信息的空时特征图;依据所述空时特征图确定多个时序候选框,获得所述时序候选框的偏移量及其包含目标时序行为的概率分数,根据所述概率分数优选出具有较高置信度的若干个候选框;根据所述时序候选框从所述空时特征图中对应提取包含了时序特征的待池化特征图,将其池化为结果特征图;将结果特征图输出至全连接层,由全连接层完成视频行为分类和回归,输出所述视频流的分类结果数据。2.根据权利要求1所述的方法,其特征在于,根据所述时序候选框从所述空时特征图中对应提取包含了时序特征的待池化特征图,将其池化为结果特征图的步骤,包括:根据优选出的各个候选框,从所述空时特征图中提取出对应的待池化特征图;将待池化特征图分割成多个空时子特征图,在多个空时子特征之间保留该候选框相对应的时序特征;适用最大值池化函数对所述空时子特征图进行池化获得结果特征图。3.根据权利要求1所述的方法,其特征在于,根据所述时序候选框从所述空时特征图中对应提取包含了时序特征的待池化特征图,将其池化为结果特征图的步骤,包括:根据优选出的各个候选框所占时序长度从所述空时特征图中提取其本身及其之前与之后的属于连续片段的待池化特征图;将各个片段的待池化特征图分割成空时子特征图,且在多个空时子特征之间保留该候选框相对应的时序特征;适用最大值池化函数分别对各个片段的所述空时子特征图进行池化并统一为结果特征图。4.根据权利要求1所述的方法,其特征在于,将候选框池化为多个具有相同维度的特征图并输出至全连接层的步骤中,包括:根据优选出的各个候选框所占时序长度从所述空时特征图中提取其本身及其之前与之后的属于连续片段的待池化特征图;将各个片段的待池化特征图分割成空时子特征图,且在多个空时子特征之间保留该候选框相对应的时序特征;适用最大值池化函数分别对各个片段的所述空时子特征图进行池化并统一为结果特征图;基于所述各个片段的空时子特征图及结果特征图,在保留其结构化编码特征的基础上,对特征在同一空间点上沿着时序维度进行相关性计算,获得相应的编码特征相应的结果特征图。5.根据权利要求1所述的方法,其特征在于,对视频流进行特征提取获得包含空间和时序特征信息的空时特征图的步骤中:利用C3D网络的多个卷积层,在保持时序分辨率不变的条件下,将所述视频流逐级下采样降低空间分辨率,获得所述的空时特征图。6.根据权利要求1至5中任意一项所述的方法,其特征在于:依据所述空时特征图确定多个时序候选框,获得所述时序候选框的偏移量及其包含目标时序行为的概率分数,根据所述概率分数优选出具有较高置信度的若干个候选框的步骤,包括:
依据所述空时特征图进行池化,获得仅保留了时序特征信息的一维特征图;评估所述一维特征图中各个时序点的控制区域属于目标时序行...
【专利技术属性】
技术研发人员:陈广,
申请(专利权)人:广州华多网络科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。