当前位置: 首页 > 专利查询>河海大学专利>正文

一种基于双流非局部时空卷积神经网络的人体行为识别方法技术

技术编号:34520111 阅读:24 留言:0更新日期:2022-08-13 21:09
本发明专利技术公开了一种基于双流非局部时空卷积神经网络的人体行为识别方法,包括:获取包含人体行为的待检测视频;对待检测视频按帧提取生成RGB图像序列,并将RGB图像序列输入训练后的空间流卷积神经网络NST

【技术实现步骤摘要】
一种基于双流非局部时空卷积神经网络的人体行为识别方法


[0001]本专利技术涉及一种基于双流非局部时空卷积神经网络的人体行为识别方法, 属于计算机视觉


技术介绍

[0002]近年来,视频中的人体行为识别已成为计算机视觉领域的一个研究热点, 目前对于该领域的研究方法可以分为两大类,包括基于手工设计特征的机器学 习方法和基于深度神经网络的方法。在基于手工设计特征的方法中具有代表性 的有兴趣点检测法、稀疏与稠密采样等,最早的动作识别工作使用3D模型来 描述动作,并理解和解释人体行为。类似于人体的结构模型的整体表征法更可 能保留动作的空间和时间结构,然而,目前深度学习的方法受到青睐,采用深 度学习处理图像和视频数据是研究的热点,例如卷积神经网络,不需要手动进 行特征提取,可以从训练样本中获取底层特征信息,再通过多层卷积获取高层 特征信息,应用到对图像、视频等数据的处理中。

技术实现思路

[0003]本专利技术的目的在于克服现有技术中的不足,提供一种基于双流非局部时空 卷积神经网络的人体行为识别方法,能够实现端到端的人体行为识别,且具有 较高准确率。
[0004]为达到上述目的,本专利技术是采用下述技术方案实现的:
[0005]本专利技术提供了一种基于双流非局部时空卷积神经网络的人体行为识别方法, 包括:
[0006]获取包含人体行为的待检测视频;
[0007]对待检测视频按帧提取生成RGB图像序列,并将RGB图像序列输入训练 后的空间流卷积神经网络NST
‑<br/>CNN获取空间流人体行为类型预测;
[0008]将待检测视频输入训练后的PWC

Net网络生成光流图像序列,并将光流图 像序列输入训练后的时间流卷积神经网络NST

CNN获取时间流人体行为类型 预测;
[0009]根据空间流和时间流人体行为类型预测进行均值融合获取最终的人体行为 类型预测。
[0010]可选的,所述将待检测视频输入训练后的PWC

Net网络生成光流图像序列 包括:将待检测视频相邻帧的图像分别送入六级特征金字塔网络获取各个尺度 下的特征图;将特征图进行代价容量计算、扭曲操作、光流提取层、上采样、 上下文网络层生成光流图像序列;其中,所述PWC

Net网络使用光流数据集 Flying Chairs和Flying Things3D作为训练数据集进行训练。
[0011]可选的,所述空间流和时间流卷积神经网络NST

CNN均包括依次连接的 非局部时空卷积层、第一非局部时空卷积块、第二非局部时空卷积块、第三非 局部时空卷积块、第四非局部时空卷积块、第五非局部时空卷积块、3D池化层、 全连接层、Dropout层以及Softmax层。
[0012]可选的,所述第一非局部时空卷积块包括时空卷积层;所述第二非局部时 空卷积块包括一个非局部模块和三个残差块;所述第三非局部时空卷积块包括 一个非局部模块和四个残差块;所述第四非局部时空卷积块包括一个非局部模 块和六个残差块;所述第五非局部时空卷积块包括一个非局部模块和三个残差 块。
[0013]可选的,所述残差块包括依次连接的时空卷积层、批归一化层、Leaky ReLU 激活函数层以及时空卷积层,所述残差块的输入输出之间直连,且所述残差块 后均连接有Leaky ReLU激活函数层。
[0014]可选的,所述时空卷积层包括依次连接的空间卷积层、批归一化层、LeakyReLU激活函数层以及时间卷积层。
[0015]可选的,所述Leaky ReLU激活函数为:
[0016][0017]其中,x为输入,λ为参数。
[0018]可选的,所述非局部模块的数字表示为:
[0019][0020]其中,x
i
和x
j
分别为输入信号的位置i和j处特征值,Z
i
为输入信号的位置i的 输出特征值;f(x
i
,x
j
)为输入信号的位置i和j处特征值的相关性函数; g(x
j
)=W
g
x
j
,W
g
和W
Z
为权重矩阵,C(x)为归一化参数,且:
[0021][0022][0023]其中,θ(x
i
)=W
θ
x
i
,Φ(x
j
)=W
Φ
x
j
,且W
θ
、W
Φ
为权重矩阵。
[0024]可选的,所述空间流和时间流卷积神经网络NST

CNN的训练包括:利用 Kinetics

400数据集作为训练数据集对空间流和时间流卷积神经网络NST

CNN 进行一次训练;利用UCF101数据集和HMDB51数据集作为训练数据集对空间 流和时间流卷积神经网络NST

CNN进行二次训练;在一次训练和二次训练时, 采用基于梯度中心化算法改进带动量的随机梯度下降算法优化训练。
[0025]可选的,所述获取最终的人体行为类型预测包括:
[0026][0027]其中,y
average
为最终的人体行为类型预测,x
t
、x
s
分别为空间流和时间流 的人体行为类型预测。
[0028]与现有技术相比,本专利技术所达到的有益效果:
[0029]本专利技术提供的一种基于双流非局部时空卷积神经网络的人体行为识别方法, 结合3D网络和双流网络的各自特点,同时在网络中引入了非局部模块,提出 面向人体行为识别的双流非局部时空卷积神经网络,双流网络由时间流子网络 和空间流子网络两部分构
成,且这两部分的识别网络均采用非局部时空卷积神 经网络(NST

CNN);空间流子网络的输入为从待检测视频帧提取的RGB图 像序列;时间流子网络的输入是利用光流图像估计网络PWC

Net从待检测视频 中提取的光流图序列;利用均值融合法将空间流子网络和时间流子网络的识别 结果融合,实现人体行为识别。此外,网络采用基于梯度中心化改进的带动量 的随机梯度下降算法训练。本专利技术可实现端到端的人体行为识别,具有较高准 确率。
附图说明
[0030]图1是本专利技术实施例提供的一种基于双流非局部时空卷积神经网络的人体 行为识别方法流程图;
[0031]图2是本专利技术实施例提供的时空卷积神经网络(NST

CNN)结构图示意图;
[0032]图3是本专利技术实施例提供的非局部时空卷积块和残差块(ResBlock)结构 图示意图;
[0033]图4是本专利技术实施例提供的非局部模块(Nonlocal Block)结构示意图。
具体实施方式
...

【技术保护点】

【技术特征摘要】
1.一种基于双流非局部时空卷积神经网络的人体行为识别方法,其特征在于,包括:获取包含人体行为的待检测视频;对待检测视频按帧提取生成RGB图像序列,并将RGB图像序列输入训练后的空间流卷积神经网络NST

CNN获取空间流人体行为类型预测;将待检测视频输入训练后的PWC

Net网络生成光流图像序列,并将光流图像序列输入训练后的时间流卷积神经网络NST

CNN获取时间流人体行为类型预测;根据空间流和时间流人体行为类型预测进行均值融合获取最终的人体行为类型预测。2.根据权利要求1所述的一种基于双流非局部时空卷积神经网络的人体行为识别方法,其特征在于,所述将待检测视频输入训练后的PWC

Net网络生成光流图像序列包括:将待检测视频相邻帧的图像分别送入六级特征金字塔网络获取各个尺度下的特征图;将特征图进行代价容量计算、扭曲操作、光流提取层、上采样、上下文网络层生成光流图像序列;其中,所述PWC

Net网络使用光流数据集Flying Chairs和Flying Things3D作为训练数据集进行训练。3.根据权利要求1所述的一种基于双流非局部时空卷积神经网络的人体行为识别方法,其特征在于,所述空间流和时间流卷积神经网络NST

CNN均包括依次连接的非局部时空卷积层、第一非局部时空卷积块、第二非局部时空卷积块、第三非局部时空卷积块、第四非局部时空卷积块、第五非局部时空卷积块、3D池化层、全连接层、Dropout层以及Softmax层。4.根据权利要求3所述的一种基于双流非局部时空卷积神经网络的人体行为识别方法,其特征在于,所述第一非局部时空卷积块包括时空卷积层;所述第二非局部时空卷积块包括一个非局部模块和三个残差块;所述第三非局部时空卷积块包括一个非局部模块和四个残差块;所述第四非局部时空卷积块包括一个非局部模块和六个残差块;所述第五非局部时空卷积块包括一个非局部模块和三个残差块。5.根据权利要求4所述的一种基于双流非局部时空卷积神经网络的人体行为识别方法,其特征在于,所述残差块包括依次连接的时空卷积层、批归一化层、Leaky ReLU激活函数层以及时空卷积层,所述残差块的输入输出之间直连,且所述残差块后均连接有Leaky ReLU激活函数层。6.根据权利要求5所述的一种基于双流非局部时空卷积神经网...

【专利技术属性】
技术研发人员:钱惠敏陈实周军卢新彪
申请(专利权)人:河海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1