一种基于循环神经网络的人体动作识别方法技术

技术编号:35216262 阅读:18 留言:0更新日期:2022-10-15 10:31
本公开涉及一种基于循环神经网络的人体动作识别方法,属于人工智能人体动作识别技术领域。本公开对人体骨架时序数据使用循环神经网络进行动作识别,有效改善了识别效果。进一步通过将骨架数据转换成一系列骨骼的方向向量作为新的空间特征来代替直接将三维坐标进行输入,增强了输入数据在空间中的特征表现,减弱了现有技术对于空间运动信息获取不足的影响。进一步通过在数据集25个关节中选取其中对运动重要的15个关节,两两结合组成105个方向向量来增强空间特征,增强输入数据在空间中的特征表现的同时,降低了输入数据维度,提高了神经网络处理效率。进一步通过对RNN神经网络的改进取得更好的人体动作识别效果。络的改进取得更好的人体动作识别效果。络的改进取得更好的人体动作识别效果。

【技术实现步骤摘要】
一种基于循环神经网络的人体动作识别方法


[0001]本公开涉及人工智能人体动作识别
,尤其涉及一种基于循环神经网络的人体动作识别方法。

技术介绍

[0002]随着人体运动捕捉技术的飞速发展以及深度学习技术的不断进步,人体运动数据可以越来越精确的被获取,人体运动数据详细的记录了人体在各个时间点的所有运动轨迹以及所有的细节。人体动作识别是目前计算机视觉领域的一个重要的研究内容。其目的是通过计算机对于人体运动数据的计算,分析出人体动作的特征,进一步理解人动作的目的。目前动作识别广泛应用在体育、监控、娱乐、交通等诸多方面。

技术实现思路

[0003]本公开的目的是为了提供一种基于循环神经网络的人体动作识别方法,该方法能够基于不受对比度光照等影响、噪声小、数据量小、数据更加精准的骨架数据进行人体动作识别。
[0004]第一方面,本公开实施例提供一种基于循环神经网络的人体动作识别方法,包括以下内容:
[0005]接收人体时空数据样本X={x1,x2,

,x
t
,

,x
f
},其中x
t
表示t时刻的人体骨架数据;f为样本X的总帧数;
[0006]将X输入经训练的循环神经网络进行动作识别。
[0007]第二方面,本公开实施例提供一种电子设备,包括:
[0008]存储器;
[0009]处理器;以及
[0010]计算机程序;
[0011]其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现第一方面所述的方法。
[0012]第三方面,本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的方法。
[0013]有益效果:
[0014]本公开提供的方法,利用循环神经网络对人体骨架时序数据进行动作识别,相比RGB视频直接输入进行动作识别,骨架数据的输入具有不受对比度光照等影响、噪声小、数据量小、数据更加精准等优点。进一步通过将骨架数据转换成一系列骨骼的方向向量作为新的空间特征来代替直接将三维坐标进行输入,增强了输入数据在空间中的特征表现,减弱了现有技术对于空间运动信息获取不足的影响。进一步通过在数据集25个关节中选取其中对运动重要的15个关节,两两结合组成105个方向向量来增强空间特征,增强输入数据在空间中的特征表现的同时,降低了输入数据维度,提高了神经网络处理效率。进一步通过对
RNN神经网络的改进取得更好的人体动作识别效果。
附图说明
[0015]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
[0016]为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0017]图1为右上臂骨骼长度随时间变化示意图;
[0018]图2为右小臂长度随时间变化图;
[0019]图3为NTU

RGB+D数据集骨架结构示意图;
[0020]图4为人体关节点的选取结构示意图;
[0021]图5为本公开提供的一种基于循环神经网络的人体动作识别方法流程示意图。
具体实施方式
[0022]为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
[0023]在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
[0024]现有动作识别方法通常是将RGB视频直接输入进行动作识别,识别效果差强人意。为解决此问题,申请人提供一种基于骨架数据的人体动作识别方法。
[0025]图5为本公开提供的一种基于循环神经网络的人体动作识别方法,该方法包括:
[0026]接收人体时空数据样本X={x1,x2,

,x
t
,

,x
f
},其中x
t
表示t时刻的人体骨架数据;f表示样本X的总帧数;
[0027]将X输入经训练的循环神经网络进行动作识别。
[0028]人体运动数据拥有着时序性、结构性等特性,时序性说明了人体运动是由每一个时刻的动作按照时间顺序组合而成,后一时刻的动作是由前一时刻变化而来时间序列上不可打乱。结构性说明每一时刻必须包含整个人体各躯干结构的运动信息。采用骨架时序数据描述人体动作,能够突出直观的反映出各个关节点在每一帧的运动情况,将整个人体抽象成骨骼与关节,去除了其他所有干扰,例如光照、背景变化等等,具有噪声小的优点。并且骨架数据对人体运动的刻画更为立体,拥有着数据量小、精度高等优点。骨架数据可以由各种动捕设备直接得到,也可通过基于视频的姿态估计算法从视频中提取,具有容易获取的优点。例如使用Kinect深度相机,可采集到人体20多个关节点的三维坐标信息。使用BioVision等设备对人体进行运动捕捉,获得的bvh数据文件记录了骨架各骨骼的长度,以及各关节的旋转欧拉角数据。
[0029]作为一种具体的实施方式,对人体时空数据样本X进行时间尺度归一化处理:
[0030]若f大于预设帧数T,则提取X中从rand(f

T)帧开始的T帧片段作为X;
[0031]若f小于预设帧数T,则在X中x1之前填充rand(0,T

f)帧的0数据,在x
f
之后填充T

rand(0,T

f)

f帧的0数据;
[0032]经上述处理后,X成为长度为T的人体骨架时序数据,表示为X=={x1,x2,

,x
t
,

,x
T
};
[0033]其中,rand(a,b)表示在a,b之间生成随机整数的函数。
[0034]对于收集到的运动信息,由于不同的动作所需要的时间不相同,以及相同的动作不同人完成的时间也不相同,使用深感相机录制的视频时长也不相同,因此造成了骨架运动序列在时间尺度上的长短不尽相同。通过利用随机数,使每次对数据集进行处理的时候会得到不一样的归一化结果,一定程度上扩充了数据的多样性,并且提高了输入数据的规范化。
[0035]作为一种具体的实施方式,对人体时空数据样本X各时刻骨架数据进行骨骼长度归一化处理:
[0036](1)对于可变长骨骼,通过下述过程标准化:
[0037](1.1)通过下式计算相邻关节i本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于循环神经网络的人体动作识别方法,其特征在于:接收人体时空数据样本X={x1,x2,

,x
t


,x
f
},其中x
t
表示t时刻的人体骨架数据,f表示X的总帧数;将X输入经训练的循环神经网络进行动作识别。2.根据权利要求1所述的方法,其特征在于:对所述X进行时间尺度归一化处理:若f大于预设帧数T,则提取X中从rand(f

T)帧开始的T帧片段作为X;若f小于预设帧数T,则在X中x1之前填充rand(0,T

f)帧的0数据,在x
f
之后填充T

rand(0,T

f)

f帧的0数据;经上述处理后,X成为长度为T的人体骨架时序数据,表示为X=={x1,x2…
,x
t


,x
T
};其中,rand(a,b)表示在a,b之间生成随机整数的函数。3.根据权利要求1所述的方法,其特征在于:对所述样本X各时刻骨架数据进行骨骼长度归一化处理:(1)对于可变长骨骼,通过下述过程标准化:(1.1)通过下式计算相邻关节i和j标准化后的骨骼长度L
i,j
:L
i,j
=A
i,j
*d
i,j
其中,d
i,j
为标准样本骨骼长度,A
i,j
为所述样本骨骼的单位方向向量,通过下式计算:其中,(x
i
,y
i
,z
i
)为关节i的三维坐标,(x
j
,y
j
,z
j
)为关节j的三维坐标,l为所述X的骨骼长度,通过下式计算:(1.2)所述x
t
中关节k的世界坐标由关节1与从关节1开始到关节k的各段相邻关节标准化后的骨骼长度依次累加得到;(2)对于非可变骨骼,通过下述过程标准化:首先求出所述样本X与标准样本的身高比例,之后依据该比例对非可变骨骼长度进行缩放,之后再计算非可变骨骼关节点的坐标。4.根据权利要求3所述的方法,其特征在于:所述非可变骨骼为NTU

RGB+D数据集3D骨架数据中的关节12、关节24、关节8和关节22,所述可变长骨骼为NTU

RGB+D数据集3D骨架数据中除所述非可变骨骼之外的所有关节。5.根据权利要求1

4任一所述的方法,其特征在于:所述人体骨架数据为不同关节点间的方向向量组成的增强骨骼空间特征。6.根据权利要求5所述的方法,其特征在于:所述关节点取自NTU

RGB+D数据集中标号为1、4、5、6、7、9、10、11、13、14、15、17、18、19或21的关节点。7.根据权利要求1所述的方法,其特征在于:所述循环神经网络包括输入层、隐藏层和输出层,隐藏层对输入层输入的时序数据自t=1至t=T依次进行如下处理:f
t
=σ(W
f
·
[h
t
‑1,x
t
]+b
f
)i
t
=σ(W
i
·
[h
t
‑1,x
t
]+b
i
)g
t
=tanh(W
g
·
[h
t
‑1,x
t
]+b
g
)
o
t
=σ(W
o
·
[h
t
‑1,x
t
]+b
o
)C
t
=f
t
*C
t
‑1+i
t
*g
t
h
t
=o
t
*tanh(C
t
)其中,f
t
控制着对上一时刻的遗忘程度,i
t
控制着对当前时刻的记忆程度,g
t
是初步得到的当前时刻状态值,o
t
是初步得到的当前时刻输出值,C
t
是t时刻的状态值,h...

【专利技术属性】
技术研发人员:黄天羽李祥臣唐明湘崔利荣刘俊铎
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1