一种基于深度残差网络的人体行为识别方法技术

技术编号：21953497 阅读：17 留言：0更新日期：2019-08-24 18:07

本发明专利技术公开了一种基于深度残差网络的人体行为识别方法，包括以下步骤：使用kinect传感器，获取包含人体的深度图和人体关节的数据集；对深度图进行均衡化、灰度化处理，得到深度动作图数据；将人体关节的数据集中的坐标转换成球坐标，计算出关节描述图来表示身体姿势序列，进行数据扩充后在深度残差网络中进行训练；将得到的结果在最后一个池化层之后连接，得到一个新的层；对比不同深度网络下训练的结果，得到识别结果。本发明专利技术通过对两个不同数据集分别进行处理训练后结合，使用了更加深层的深度残差网络进行训练，通过这些方法的应用能够降低错误率，提高行为识别的准确性与稳定性，具有良好的实施性与实效性。

A Human Behavior Recognition Method Based on Deep Residual Network

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度残差网络的人体行为识别方法
本专利技术涉及一种基于深度残差网络的人体行为识别方法，属于行为识别、机器视觉、机器学习等交叉

技术介绍
基于视频的人体行为识别是计算机视觉领域中的一个重要研究课题，具有重要的理论意义与实际应用价值。随着像Kinect这样的高效率传感器的能力越来越强，目前使用深度图和身体关节来进行人体行为识别变得非常流行，但现有的技术还存在一些局限性。首先，传统的基于深度图的人体行为识别通常需要建立多个视角的深度图数据集，提取大量特征，以便能识别出在前视图中看起来相似，在侧视图中不同的动作。其次，尽管基于深度图的人体行为识别方法结果比较准确，但当输入的特征维度较大时，学习模型的计算复杂度会迅速增加，因此在解决大规模问题和实时应用方面变得更加缓慢、复杂、不实用。最后，利用人体关节姿势数据进行人体行为识别对关节运动相当敏感，很容易把两个相同动作识别成不同的动作。对于人体行为系统的研究，国内外所采用的技术并不成熟。大部分人体行为识别系统依赖于人工对数据进行标记加工，再将数据放入模型中进行识别。对数据有较强的依赖性，其运行效率低，不适合工业化与商品化的需求。最近在人类视觉皮层层次处理的启发下，深度学习，特别是卷积神经网络，在图像分类方面取得了巨大的成功。Alexnet成功后，设计和优化性能更高的CNN架构已经成为了一个新的研究方向。大量证据表明，通过增加卷积神经网络隐藏层的数量可以显著改善CNN的性能。但增加层数会导致梯度弥散或梯度爆炸导致系统不能收敛，而且在深度增加时，精确度常会因为过拟合的问题而饱和并下降。既可以增加神经网络的深...

【技术保护点】
1.一种基于深度残差网络的人体行为识别方法，其特征在于：包括以下步骤：步骤1，使用kinect传感器，获取包含人体的深度图和人体关节的数据集；其中，人体关节的数据集为人体各个关节的坐标；步骤2，对步骤1获得的深度图进行均衡化、灰度化处理，得到深度动作图数据；步骤3，将步骤1得到的人体关节的数据集中的坐标转换成球坐标，计算出关节描述图来表示身体姿势序列，进行数据扩充后在深度残差网络中进行训练；步骤4，将步骤2和步骤3得到的结果在最后一个池化层之后连接，得到一个新的层；其中，所述池化层为神经网络中卷积层的输出；步骤5，对比不同深度网络下训练的结果，得到识别结果。

【技术特征摘要】
1.一种基于深度残差网络的人体行为识别方法，其特征在于：包括以下步骤：步骤1，使用kinect传感器，获取包含人体的深度图和人体关节的数据集；其中，人体关节的数据集为人体各个关节的坐标；步骤2，对步骤1获得的深度图进行均衡化、灰度化处理，得到深度动作图数据；步骤3，将步骤1得到的人体关节的数据集中的坐标转换成球坐标，计算出关节描述图来表示身体姿势序列，进行数据扩充后在深度残差网络中进行训练；步骤4，将步骤2和步骤3得到的结果在最后一个池化层之后连接，得到一个新的层；其中，所述池化层为神经网络中卷积层的输出；步骤5，对比不同深度网络下训练的结果，得到识别结果。2.根据权利要求1所述的基于深度残差网络的人体行为识别方法，其特征在于：所述步骤1中，深度图为图像，其每个像素值代表物体到相机平面的距离。3.根据权利要求1所述的基于深度残差网络的人体行为识别方法，其特征在于：所述步骤2具体为：设I(i,j,t)表示在t时刻画面I的像素位置(i,j)，则有DMI(i,j)＝255-min(I(i,j,t))其中k为图像总数；将得到的图中每个像素的值除以图中像素值中的最大值以标准化，裁剪出感兴趣区域，得到动作描述图；将动作描述图调整为120*120像素，在图上做随机裁剪将120*120的图裁剪为112*112图，然后做水平翻转和垂直翻转，得到3种不同的112*112的图像作为神经网络ResNet模型的输入；每个ResNet学习组件形成残差函数y＝F(x)+id(x),其中，id(x)＝x，F(x)由卷积层、批标准化层、ReLU层、随机失活层、卷积层、批标准化层组成；使用ResNet-20，ResNet-32，ResNet-44，ResNet-56，ResNet-110分别进行训练；在ResNet-44及更深层的网络中使用瓶颈设计，每个瓶颈结构先使用1*1的滤波器降维，使用3*3滤波器进行卷积，再用1*1的滤波器进行升维；在ResNet-32及ResNet-20中的卷积层直接使用3*3滤波器。4.根据权利要求1所...

【专利技术属性】
技术研发人员：孙斗南，陈志，岳文静，吴宇晨，赵立昌，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人