一种基于深度残差网络的人体行为识别方法技术

技术编号:21953497 阅读:17 留言:0更新日期:2019-08-24 18:07
本发明专利技术公开了一种基于深度残差网络的人体行为识别方法,包括以下步骤:使用kinect传感器,获取包含人体的深度图和人体关节的数据集;对深度图进行均衡化、灰度化处理,得到深度动作图数据;将人体关节的数据集中的坐标转换成球坐标,计算出关节描述图来表示身体姿势序列,进行数据扩充后在深度残差网络中进行训练;将得到的结果在最后一个池化层之后连接,得到一个新的层;对比不同深度网络下训练的结果,得到识别结果。本发明专利技术通过对两个不同数据集分别进行处理训练后结合,使用了更加深层的深度残差网络进行训练,通过这些方法的应用能够降低错误率,提高行为识别的准确性与稳定性,具有良好的实施性与实效性。

A Human Behavior Recognition Method Based on Deep Residual Network

【技术实现步骤摘要】
一种基于深度残差网络的人体行为识别方法
本专利技术涉及一种基于深度残差网络的人体行为识别方法,属于行为识别、机器视觉、机器学习等交叉

技术介绍
基于视频的人体行为识别是计算机视觉领域中的一个重要研究课题,具有重要的理论意义与实际应用价值。随着像Kinect这样的高效率传感器的能力越来越强,目前使用深度图和身体关节来进行人体行为识别变得非常流行,但现有的技术还存在一些局限性。首先,传统的基于深度图的人体行为识别通常需要建立多个视角的深度图数据集,提取大量特征,以便能识别出在前视图中看起来相似,在侧视图中不同的动作。其次,尽管基于深度图的人体行为识别方法结果比较准确,但当输入的特征维度较大时,学习模型的计算复杂度会迅速增加,因此在解决大规模问题和实时应用方面变得更加缓慢、复杂、不实用。最后,利用人体关节姿势数据进行人体行为识别对关节运动相当敏感,很容易把两个相同动作识别成不同的动作。对于人体行为系统的研究,国内外所采用的技术并不成熟。大部分人体行为识别系统依赖于人工对数据进行标记加工,再将数据放入模型中进行识别。对数据有较强的依赖性,其运行效率低,不适合工业化与商品化的需求。最近在人类视觉皮层层次处理的启发下,深度学习,特别是卷积神经网络,在图像分类方面取得了巨大的成功。Alexnet成功后,设计和优化性能更高的CNN架构已经成为了一个新的研究方向。大量证据表明,通过增加卷积神经网络隐藏层的数量可以显著改善CNN的性能。但增加层数会导致梯度弥散或梯度爆炸导致系统不能收敛,而且在深度增加时,精确度常会因为过拟合的问题而饱和并下降。既可以增加神经网络的深度又可以避免过拟合和梯度问题的深度残差网络(ResNet)是一种比较好的训练方式。此外,大多数现有的基于CNN的方法限制自己使用RGB-D序列作为学习的输入模型。虽然RGB-D图像对于理解人类行为非常有效,但是当输入要素的尺寸很大时,该模型的计算复杂度会迅速增加。更具成本效益且更准确的人体行为识别方法,还需要进行大量的研究工作。
技术实现思路
本专利技术的目的是提供一种基于深度残差网络的人体行为识别方法,以提高对人体行为识别的准确度,并且降低学习模型的计算复杂度。为实现上述目的,本专利技术采用的技术方案为:一种基于深度残差网络的人体行为识别方法,包括以下步骤:步骤1,使用kinect传感器,获取包含人体的深度图和人体关节的数据集;其中,人体关节的数据集为人体各个关节的坐标;步骤2,对步骤1获得的深度图进行均衡化、灰度化处理,得到深度动作图数据;步骤3,将步骤1得到的人体关节的数据集中的坐标转换成球坐标,计算出关节描述图来表示身体姿势序列,进行数据扩充后在深度残差网络中进行训练;步骤4,将步骤2和步骤3得到的结果在最后一个池化层之后连接,得到一个新的层;其中,所述池化层为神经网络中卷积层的输出;步骤5,对比不同深度网络下训练的结果,得到识别结果。所述步骤1中,深度图为图像,其每个像素值代表物体到相机平面的距离。所述步骤2具体为:设I(i,j,t)表示在t时刻画面I的像素位置(i,j),则有DMI(i,j)=255-min(I(i,j,t))其中k为图像总数;将得到的图中每个像素的值除以图中像素值中的最大值以标准化,裁剪出感兴趣区域,得到动作描述图;将动作描述图调整为120*120像素,在图上做随机裁剪将120*120的图裁剪为112*112图,然后做水平翻转和垂直翻转,得到3种不同的112*112的图像作为神经网络ResNet模型的输入;每个ResNet学习组件形成残差函数y=F(x)+id(x),其中,id(x)=x,F(x)由卷积层、批标准化层、ReLU层、随机失活层、卷积层、批标准化层组成;使用ResNet-20,ResNet-32,ResNet-44,ResNet-56,ResNet-110分别进行训练;在ResNet-44及更深层的网络中使用瓶颈设计,每个瓶颈结构先使用1*1的滤波器降维,使用3*3滤波器进行卷积,再用1*1的滤波器进行升维;在ResNet-32及ResNet-20中的卷积层直接使用3*3滤波器。所述步骤3中,人体关节的坐标由三维坐标(x,y,z)描述,则以臀部中心关节坐标的坐标O作为坐标原点建立球坐标系,半径表示原点与关节之间的距离,角度表示关节与z轴的垂直角度,角度表示关节与x轴的水平角度;构建灰度图像R,G,B表示θ,和r的运动,有R(Jk,n)={θ|第n帧中关节Jk的角度θ}G(Jk,n)={|第n帧中关节Jk的角度}B(Jk,n)={r|第n帧中关节Jk的半径r}其中,k为关节的标号;从RGB中得到关节描述图MJD=R+G+B,将其调整为120*120像素,在MJD图上做随机图像差值将120*120的图裁剪为112*112图,然后做水平翻转和垂直翻转,得到3种不同的112*112的图像作为神经网络ResNet模型的输入;每个ResNet学习组件形成残差函数y=F(x)+id(x),其中id(x)=x,F(x)由卷积层、批标准化层、ReLU层、随机失活层、卷积层、批标准化层组成;使用ResNet-20,ResNet-32,ResNet-44,ResNet-56,ResNet-110分别进行训练;在ResNet-44及更深层的网络中使用瓶颈设计,每个瓶颈结构先使用1*1的滤波器降维,使用3*3滤波器进行卷积,再用1*1的滤波器进行升维;在ResNet-32及ResNet-20中的卷积层直接使用3*3滤波器。所述步骤2与步骤3中,随机失活层的初始速率为0.5。所述步骤2与步骤3中,初始学习率设定为0.01,并在第75次减少到0.001;最后45次使用的学习率为0.0001;权重衰减设定为0.0001,动量为0.9。在步骤2与步骤3执行完成后,使用随机梯度下降法在线调整出参数的最佳值以最小化损失函数,所述损失函数即表现预测与实际数据相差程度的函数表达。有益效果:本专利技术与现有技术相比,具有以下技术效果:本专利技术使用人体关节数据和深度图数据通过深度残差网络(ResNet)进行人体行为识别,相较于一般的卷积神经网络训练进行行为识别,结果更准确,复杂度降低,需要的参数下降,优化更简单,解决了梯度弥散梯度爆炸等问题。本专利技术通过对深度图数据进行标准化、灰度化处理,将关节数据转换成球坐标计算出关节描述图来表示身体姿势序列,使用裁剪、翻转等方式进行数据扩充后在深度残差网络(ResNet)中进行训练。使用随机梯度下降的方法在线调节参数,完成端对端的学习通过这些方法的应用,提高了人体行为识别的准确性,同时降低了学习模型的计算复杂度,具体来说:(1)本专利技术采用两种数据处理后在深度残差网络中进行训练,相比单种数据,具有更高的准确性。(2)本专利技术将人体关节数据用球坐标转换成描述符,比使用笛卡尔坐标得出的结果更准确,提高了行为识别的准确性。(3)本专利技术采用的深度图方法,相比传统的基于RGB-D的行为识别方法,结果更准确且计算复杂度更低。(4)本专利技术采用ResNet进行训练,相比传统的CNN方法,结果更准确,复杂度降低,需要的参数下降,优化更简单,解决了梯度弥散梯度爆炸等问题。附图说明图1是基于深度残差网络的人体行为识别方法流程。具体实施方式下面结合附图及本文档来自技高网
...

【技术保护点】
1.一种基于深度残差网络的人体行为识别方法,其特征在于:包括以下步骤:步骤1,使用kinect传感器,获取包含人体的深度图和人体关节的数据集;其中,人体关节的数据集为人体各个关节的坐标;步骤2,对步骤1获得的深度图进行均衡化、灰度化处理,得到深度动作图数据;步骤3,将步骤1得到的人体关节的数据集中的坐标转换成球坐标,计算出关节描述图来表示身体姿势序列,进行数据扩充后在深度残差网络中进行训练;步骤4,将步骤2和步骤3得到的结果在最后一个池化层之后连接,得到一个新的层;其中,所述池化层为神经网络中卷积层的输出;步骤5,对比不同深度网络下训练的结果,得到识别结果。

【技术特征摘要】
1.一种基于深度残差网络的人体行为识别方法,其特征在于:包括以下步骤:步骤1,使用kinect传感器,获取包含人体的深度图和人体关节的数据集;其中,人体关节的数据集为人体各个关节的坐标;步骤2,对步骤1获得的深度图进行均衡化、灰度化处理,得到深度动作图数据;步骤3,将步骤1得到的人体关节的数据集中的坐标转换成球坐标,计算出关节描述图来表示身体姿势序列,进行数据扩充后在深度残差网络中进行训练;步骤4,将步骤2和步骤3得到的结果在最后一个池化层之后连接,得到一个新的层;其中,所述池化层为神经网络中卷积层的输出;步骤5,对比不同深度网络下训练的结果,得到识别结果。2.根据权利要求1所述的基于深度残差网络的人体行为识别方法,其特征在于:所述步骤1中,深度图为图像,其每个像素值代表物体到相机平面的距离。3.根据权利要求1所述的基于深度残差网络的人体行为识别方法,其特征在于:所述步骤2具体为:设I(i,j,t)表示在t时刻画面I的像素位置(i,j),则有DMI(i,j)=255-min(I(i,j,t))其中k为图像总数;将得到的图中每个像素的值除以图中像素值中的最大值以标准化,裁剪出感兴趣区域,得到动作描述图;将动作描述图调整为120*120像素,在图上做随机裁剪将120*120的图裁剪为112*112图,然后做水平翻转和垂直翻转,得到3种不同的112*112的图像作为神经网络ResNet模型的输入;每个ResNet学习组件形成残差函数y=F(x)+id(x),其中,id(x)=x,F(x)由卷积层、批标准化层、ReLU层、随机失活层、卷积层、批标准化层组成;使用ResNet-20,ResNet-32,ResNet-44,ResNet-56,ResNet-110分别进行训练;在ResNet-44及更深层的网络中使用瓶颈设计,每个瓶颈结构先使用1*1的滤波器降维,使用3*3滤波器进行卷积,再用1*1的滤波器进行升维;在ResNet-32及ResNet-20中的卷积层直接使用3*3滤波器。4.根据权利要求1所...

【专利技术属性】
技术研发人员:孙斗南陈志岳文静吴宇晨赵立昌
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1