一种基于视频的人体行为网络模型及识别方法技术

技术编号:28839570 阅读:14 留言:0更新日期:2021-06-11 23:37
本发明专利技术公开了一种基于视频的人体行为网络模型及识别方法,包括:3D卷积层、四层Block模块、全局平均池化层以及Softmax激活层。首先,所述3D卷积层,将输入的连续视频帧进行3D卷积操作,然后进入Block模块;所述Block模块主要由改进的3D残差块和SE模块构成,首先利用3D残差块对视频帧进行特征提取,然后经过SE模块,让网络自动获取每个特征通道的重要程度,从而增加重要通道的利用率;最后,将通过全局平均池化层的特征输入到Softmax激活层,输出人体行为类别。本发明专利技术的优点是:简单、快捷,且识别精度高,提高了提取时空特征的能力,解决了网络模型的参数较多以及准确率较低的问题。

【技术实现步骤摘要】
一种基于视频的人体行为网络模型及识别方法
本专利技术涉及计算机视觉
,特别涉及一种基于视频的人体行为网络模型及识别方法。
技术介绍
当今社会,计算机技术已经飞速发展起来,具有非常强大的功能,可以协助人类解决很多问题。基于视频序列的人体行为识别,作为多学科交叉的研究课题,是计算机视觉中的一个非常重要的子任务,应用非常广泛。随着硬件技术的发展和物联网技术的推广,监控摄像头已经无处不在,但它只能起到实时记录的作用,并不具备智能分析功能,需要人工监视视频内容,容易造成误判,不能及时地做出适当有效的判断,无法满足视频监控的要求。基于视频的人体行为识别,可以对视频中的人体行为进行有效地识别,从而节省大量的人力物力,因此具有很重要的研究意义和研究价值。但是传统行为识别方法需要通过人工提取特征来对动作进行表述,容易受到摄像机不同视角、背景杂乱的影响,导致提取过程复杂且特征的表征能力较弱,局限性大,因此需要设计一种非常高效的人体行为识别方法。中国专利技术专利CN109784418A《一种基于特征重组的人体行为识别及系统》公开了一种基于特征重组的人体行为识别方法。该方法选用过滤式和嵌入式特征等方法选择特征,并组合成一个初始化特征集,然后按特征出现频率将特征集划分为高频特征和低频特征,并对低频特征进行随机选择与高频特征重组成新的特征集,最后采用分类算法对新的特征集进行人体行为识别,计算每个行为类别的识别率。该方法虽然在一定程度上能够提高识别精度,但它不能进行端对端的训练,导致效率低下。中国专利技术专利CN102811343B《一个基于行为分析的智能视频监控系统的原型》公开了一种基于行为识别的智能视频监控系统,从而对目标进行分类。该系统首先进行视频采集,然后将其进行处理,接着采用贝叶斯分类算法对视频行为进行分类,最后输送到报警模块,进行预警。该专利虽然提高了精度,但其只是对视频数据进行了有效地预处理,算法属于传统行为识别方法,并未对其创新,使得特征提取过程复杂,泛化能力差。
技术实现思路
本专利技术针对现有技术的缺陷,提供了一种基于视频的人体行为网络模型及识别方法。为了实现以上专利技术目的,本专利技术采取的技术方案如下:一种基于视频的人体行为网络模型,其特征在于,包括:3D卷积层、Block网络块、全局均值池化层和softmax激活函数层;其中,3D卷积层对输入的连续视频帧进行卷积以及提高维度;Block网络模块一共有四个且结构相同,都是由改进的残差块以及SE模块构成;改进残差块由BN层-Relu激活函数-卷积层(3×3×3)-BN层-Relu激活函数-卷积层(3×3×3)-Shortcut连接构成;改进的SE模块由:全局平均池化层-逐点卷积层(1×1×1)-Relu激活函数-逐点卷积层(1×1×1)-Sigmoid激活函数层构成;在单个Block网络模块里,连续的视频帧先经过残差块,可以解决模型退化以及梯度爆炸的问题,从而提取出有效地特征,然后改进的SE模块对残差块输出的通过进行重要度判别,从而提高重要通道的利用率,加强有用特征的提取,压缩无用特征的使用;四个模块依次叠加,可以加深网络,使提取有效特征的能力最大化,从而提高识别精度;全局平均池化层不仅可以起到全连接层的作用,还可以有效地减少网络模型参数,同时在结构上做正则化防止过拟合;Softmax激活层用于输出行为类别。本专利技术还公开了一种基于视频的人体行为识别方法,包括以下步骤:S1、对网络模型进行训练;S2、将经过预处理后的连续视频帧输入到第一个3×3×3的卷积层中进行卷积操作,之后进入BN层进行归一化操作,最后进入Relu激活函数层,进行非线性变换;其中,BN层用于将每层的输出规范为标准正态分布,即将均值归一化为0,将方差归一化为1;S3、将Relu激活函数层的输出输入到第一层Block网络模块、第二层Block网络模块、第三层Block网络模块和第四层Block网络模块进行特征提取后输入到全局平均池化层;其中,每一层Block网络模块都是按照BN层-Relu激活函数-卷积层(3×3×3)-BN层-Relu激活函数-卷积层(3×3×3)-全局平均池化层-逐点卷积层(1×1×1)-Relu激活函数-逐点卷积层(1×1×1)-Sigmoid激活函数层-shortcut连接构成;S4、所述全局均值池化层对输入数据做正则化防止过拟合后输出到Softmax激活函数层,最后输出行为类别。进一步地,S1的子步骤如下:S11、采集人体行为数据并对其标注类别后制作成有效的视频数据集;最后,通过图像预处理的后,将视频数据集按照7:3的比列划分为训练集和测试集;S12、通过网络模型提取图像的特征并对其进行向前传播得到训练类别,再由损失函数反向传播更新梯度参数;S13、训练好网络模型后,选取测试集输入到上述完成训练的网络模型中,通过前向传播得到行为类别,从而获得识别准确率;S14、结束网络模型的训练与测试。进一步地,视频数据集制作为:首先,对校园的异常行为进行定义,异常行为包括:打架、脚踢、跑步、吸烟和摔倒;然后将该数据集输入到网络模型中进行预测,然后,通过视频监控的方式进行视频拍摄,从而获取视频数据集。进一步地,在训练开始之前,将网络模型随机初始化,并使用SGD作为优化器,其中出示学习设置为0.01,然后每隔10个epochs除以10,mini-batch设置为16,总的epochs设置为100,使用交叉熵损失函数。本专利技术还公开了基于上述网络模型的人体行为识别方法,包括以下步骤:S1、对网络模型进行训练;S2、将经过预处理后的连续视频帧输入到第一个3×3×3的卷积层中进行卷积操作,之后进入BN层进行归一化操作,最后进入Relu激活函数层,进行非线性变换。其中,BN层用于将每层的输出规范为标准正态分布,即将均值归一化为0,将方差归一化为1。S3、将Relu激活函数层的输出输入到第一层Block网络模块、第二层Block网络模块、第三层Block网络模块和第四层Block网络模块进行特征提取后输入到全局平均池化层。其中,每一层Block网络模块都是按照BN层-Relu激活函数-卷积层(3×3×3)-BN层-Relu激活函数-卷积层(3×3×3)-全局平均池化层-逐点卷积层(1×1×1)-Relu激活函数-逐点卷积层(1×1×1)-Sigmoid激活函数层-shortcut连接构成。S4、所述全局均值池化层对输入数据做正则化防止过拟合后输出到Softmax激活函数层,最后输出行为类别。进一步地,S1的子步骤如下:S11、采集人体行为数据并对其标注类别后制作成有效的视频数据集;最后,通过图像预处理的后,将视频数据集按照7:3的比列划分为训练集和测试集。S12、通过网络模型提取图像的特征并对其进行向前传播得到训练类别,再由损失函数反向传播更新梯度参数。S13、训练好网络模型后,选取测试集输入到上述完成训练的网络模型中,通过前向传播得本文档来自技高网
...

【技术保护点】
1.一种基于视频的人体行为网络模型,其特征在于,包括:3D卷积层、Block网络块、全局均值池化层和softmax激活函数层;其中,3D卷积层对输入的连续视频帧进行卷积以及提高维度;Block网络模块一共有四个且结构相同,都是由改进的残差块以及SE模块构成;改进残差块由BN层-Relu激活函数-卷积层(3×3×3)-BN层-Relu激活函数-卷积层(3×3×3)-Shortcut连接构成;改进的SE模块由:全局平均池化层-逐点卷积层(1×1×1)-Relu激活函数-逐点卷积层(1×1×1)-Sigmoid激活函数层构成;/n在单个Block网络模块里,连续的视频帧先经过残差块,解决了模型退化以及梯度爆炸的问题,从而提取出有效地特征,然后改进的SE模块对残差块输出的通过进行重要度判别,从而提高重要通道的利用率,加强有用特征的提取,压缩无用特征的使用;四个模块依次叠加,加深网络,使提取有效特征的能力最大化,从而提高识别精度;全局平均池化层起到全连接层的作用,还可以有效地减少网络模型参数,同时在结构上做正则化防止过拟合;Softmax激活层用于输出行为类别。/n

【技术特征摘要】
1.一种基于视频的人体行为网络模型,其特征在于,包括:3D卷积层、Block网络块、全局均值池化层和softmax激活函数层;其中,3D卷积层对输入的连续视频帧进行卷积以及提高维度;Block网络模块一共有四个且结构相同,都是由改进的残差块以及SE模块构成;改进残差块由BN层-Relu激活函数-卷积层(3×3×3)-BN层-Relu激活函数-卷积层(3×3×3)-Shortcut连接构成;改进的SE模块由:全局平均池化层-逐点卷积层(1×1×1)-Relu激活函数-逐点卷积层(1×1×1)-Sigmoid激活函数层构成;
在单个Block网络模块里,连续的视频帧先经过残差块,解决了模型退化以及梯度爆炸的问题,从而提取出有效地特征,然后改进的SE模块对残差块输出的通过进行重要度判别,从而提高重要通道的利用率,加强有用特征的提取,压缩无用特征的使用;四个模块依次叠加,加深网络,使提取有效特征的能力最大化,从而提高识别精度;全局平均池化层起到全连接层的作用,还可以有效地减少网络模型参数,同时在结构上做正则化防止过拟合;Softmax激活层用于输出行为类别。


2.根据权利要求1所述的网络模型的人体行为识别方法,其特征在于,包括以下步骤:
S1、对网络模型进行训练;
S2、将经过预处理后的连续视频帧输入到第一个3×3×3的卷积层中进行卷积操作,之后进入BN层进行归一化操作,最后进入Relu激活函数层,进行非线性变换;其中,BN层用于将每层的输出规范为标准正态分布,即将均值归一化为0,将方差归一化为1;
S3、将Relu激活函数层的输出输入到第一层Block网络模块、第二层Block网络模块、第三层Block网络模块和第四层Block网络...

【专利技术属性】
技术研发人员:张鹏超徐鹏飞
申请(专利权)人:陕西理工大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1