基于人体骨骼序列时空信息的动作识别方法技术

技术编号:38717240 阅读:7 留言:0更新日期:2023-09-08 14:59
本发明专利技术公开了基于人体骨骼序列时空信息的动作识别方法,具体按照以下步骤实施:步骤1、对人体骨骼关节点数据进行预处理;步骤2、对人体骨骼关节点数据时间—空间深度特征提取;步骤3、基于序列级别的分类Token实现动作分类。本发明专利技术将人体骨骼关节的速度信息引入人体骨骼动作序列的表示中,增加了时间维度上信息表示,以单一关节点为单位,通过注意力机制进行时—空编码,使得各个关节点能够描述时间—空间与其他关节点的依赖关系及其在动作序列中的重要性。中的重要性。中的重要性。

【技术实现步骤摘要】
基于人体骨骼序列时空信息的动作识别方法


[0001]本专利技术属于计算机视觉和机器学习方法
,具体涉及基于人体骨骼序列时空信息的动作识别方法。

技术介绍

[0002]基于人体骨骼序列的动作识别方法通过对人体动作视频中提取的相应地骨骼序列进行特征提取、编码和分类实现人体动作的识别。相对于基于视频帧的方法,骨架动作识别方法不容易受到光照或者是背景颜色混淆等这些外界环境条件的影响,这一特性可以增强动作识别技术的鲁棒性,且基于骨骼的方法信息冗余少,运动特征突出,因此受到了广泛的关注。基于深度学习的方法对人体骨骼序列通过对大量已知类别的样本的训练,得到一个深度特征提取与分类联合的分类器,进而用于给定动作样本的类别识别。
[0003]现有基于深度学习的方法在对人体骨骼动作序列识别时,往往不太关注人体骨骼的关节点之间的依赖关系,有些方法分时段对单帧动作中关节点的特征进行时间、空间卷积,因此会丢失掉单帧动作的位置信息。

技术实现思路

[0004]本专利技术的目的是提供基于人体骨骼序列时空信息的动作识别方法,能够得到单帧内关节点的时空深度特征表示。
[0005]本专利技术所采用的技术方案是,基于人体骨骼序列时空信息的动作识别方法,具体按照以下步骤实施:
[0006]步骤1、对人体骨骼关节点数据进行预处理;
[0007]步骤2、对人体骨骼关节点数据时间

空间深度特征提取;
[0008]步骤3、基于序列级别的分类Token实现动作分类。
[0009]本专利技术的特点还在于:
[0010]步骤1具体按照以下步骤实施:
[0011]步骤1.1、人体骨骼中各关节点的速度计算;
[0012]使用帧差法得到动作序列X中各帧中每个关节点的速度:动作序列X中第t帧X(t,:,:)减去第t

1帧X(t

1,:,:),即可得到各个关节点在第t帧的速度spd_X(t,:,:),如下公式(1)所示:
[0013]spd
X(t,:,:
)=X(t,:,:)

X(t

1,:,:)
ꢀꢀꢀ
(1)
[0014]此时,得到动作序列X的速度序列spd_X,将速度序列与动作序列进行拼接,得到了包含运动信息的人体骨骼动作序列X=[X,spd_X],此时,其中C=C
pos
+C
spd

[0015]步骤1.2、动作序列X对应的以单一骨骼点为单位的Patch序列划分;
[0016]以单一骨骼点为单位进行Patch划分,从而得到整个动作序列X对应的Patch序列;
[0017]首先针对单帧,以单一骨骼点数据为单位划分为M个Patch,再针对整个动作序列X
总共T帧的每一帧进行相同的Patch划分操作,则有:
[0018][0019]上式(2)中,x
(m,t)
代表第t帧的第m个Patch;
[0020]步骤1.3、针对Patch序列进行线性嵌入得到对应Token序列;
[0021]通过一个随机生成的可训练矩阵将原始Patch信息映射到一个嵌入向量中得到其对应的Token,该过程数学表达为:
[0022][0023]上式(3)中D代表嵌入向量的维度,该维度根据实际需求进行调整,从而得到Patch序列对应的Token序列,两序列长度相同,维度不同;
[0024]步骤1.4、针对Token序列进行嵌入时空编码;
[0025]步骤1.5、在嵌入Token序列头部引入可训练的序列级动作分类Token。
[0026]步骤1.4具体为:对所有Token按照先空间再时间的顺序加入时空编码Position,则对于第t帧的第m个Token,其时空编码Position的数学表达式为:
[0027]Position=m+(t

1)
·
M
ꢀꢀꢀ
(4)
[0028]上式(4)中M为一帧中的人体骨骼关节点数,t代表当前帧,m代表当前帧中当前Token,然后针对原始时空编码Position序列进行线性嵌入,通过一个随机生成的可训练矩阵将原始时空编码映射到一个嵌入向量中得到其对应的嵌入时空编码则第t帧的第m个Token的嵌入时空编码表示为:
[0029][0030]上式(5)中D代表嵌入向量的维度;
[0031]将Token序列与其对应的嵌入时空编码进行矩阵相加,则第t帧的第m个Token的嵌入形式Z
(m,t)
表示为:
[0032][0033]步骤1.5具体为:在嵌入Token序列头部,即第0帧第0个Token位置处额外加入一个可训练的序列级动作分类为后续动作识别的展开做准备,针对某一动作序列样本,得到了长度为MT+1的Token序列,数学表示为:
[0034][0035]步骤2具体按照以下步骤实施:
[0036]步骤2.1、Token序列掩码;
[0037]经步骤1预处理后得到的嵌入Token序列使用Mask进行掩码操作,令掩码其中各个元素的取值只取0或1:给定掩码比例k,随机生成包含k
·
MT
个0元素的掩码矩阵,然后对矩阵中元素为0的Mask
(m,t)
对应的嵌入Token即Z
(m,t)
的值全部清0,从而实现掩码操作;
[0038]步骤2.2、基于Transformer编码器对输入Token序列进行多头注意力机制计算并编码。步骤2.2中具体按照以下方式实施:
[0039]步骤2.2.1、计算输入Token序列的Query

Key

Value;
[0040]针对于单个Block的单个头(l,a)将输入自己异化成Query,Key,Value,其异化过程表示为:
[0041][0042]上式(8)中,分别代表输入Token序列的Query,Key,Value值,上标确定其Block与注意力头,下标确定其Token位置,即第t帧的第m个Token在第l个Block的第α个注意力头上计算的Query

Key

Value值,分别代表Query,Key,Value的权重矩阵,该矩阵由随机生成进行初始化,并在后续训练中通过学习更新,LN则代表层归一化操作,表示前一个Block的编码表示,H则被规定为A代表每个Block的注意力头数;
[0043]步骤2.2.2、采用先时间后空间策略计算输入Token序列中各Token的自注意力值;
[0044]以点乘注意力的方式,用当前Token的Query和其他Token的Key分别做计算,即可得到该Token相对于其他Token的注意力值σ,时间维度上同一空间位置Tokens间的注意力,即时间注意力σ
Time...

【技术保护点】

【技术特征摘要】
1.基于人体骨骼序列时空信息的动作识别方法,其特征在于,具体按照以下步骤实施:步骤1、对人体骨骼关节点数据进行预处理;步骤2、对人体骨骼关节点数据时间

空间深度特征提取;步骤3、基于序列级别的分类Token实现动作分类。2.根据权利要求1所述的基于人体骨骼序列时空信息的动作识别方法,其特征在于,所述步骤1具体按照以下步骤实施:步骤1.1、人体骨骼中各关节点的速度计算;使用帧差法得到动作序列X中各帧中每个关节点的速度:动作序列X中第t帧X(t,:,:)减去第t—1帧X(t—1,:,:),即可得到各个关节点在第t帧的速度spd_X(t,:,:),如下公式(1)所示:spd
X(t,:,:)
=X(t,:,:)

X(t

1,:,:)
ꢀꢀꢀꢀꢀꢀ
(1)此时,得到动作序列X的速度序列spd_X,将速度序列与动作序列进行拼接,得到了包含运动信息的人体骨骼动作序列X=[X,spd_X],此时,其中C=C
pos
+C
spd
;步骤1.2、动作序列X对应的以单一骨骼点为单位的Patch序列划分;以单一骨骼点为单位进行Patch划分,从而得到整个动作序列X对应的Patch序列;首先针对单帧,以单一骨骼点数据为单位划分为M个Patch,再针对整个动作序列X总共T帧的每一帧进行相同的Patch划分操作,则有:上式(2)中,x
(m,t)
代表第t帧的第m个Patch;步骤1.3、针对Patch序列进行线性嵌入得到对应Token序列;通过一个随机生成的可训练矩阵将原始Patch信息映射到一个嵌入向量中得到其对应的Token,该过程数学表达为:上式(3)中D代表嵌入向量的维度,该维度根据实际需求进行调整,从而得到Patch序列对应的Token序列,两序列长度相同,维度不同;步骤1.4、针对Token序列进行嵌入时空编码;步骤1.5、在嵌入Token序列头部引入可训练的序列级动作分类Token。3.根据权利要求2所述的基于人体骨骼序列时空信息的动作识别方法,其特征在于,所述步骤1.4具体为:对所有Token按照先空间再时间的顺序加入时空编码Position,则对于第t帧的第m个Token,其时空编码Position的数学表达式为:Position=m+(t

1)
·
M
ꢀꢀꢀꢀ
(4)上式(4)中M为一帧中的人体骨骼关节点数,t代表当前帧,m代表当前帧中当前Token,然后针对原始时空编码Position序列进行线性嵌入,通过一个随机生成的可训练矩阵将原始时空编码映射到一个嵌入向量中得到其对应的嵌入时空编码e
position
,则第t帧的第m个Token的嵌入时空编码表示为:
上式(5)中D代表嵌入向量的维度;将Token序列与其对应的嵌入时空编码进行矩阵相加,则第t帧的第m个Token的嵌入形式Z
(m,t)
表示为:4.根据权利要求2所述的基于人体骨骼序列时空信息的动作识别方法,其特征在于,所述步骤1.5具体为:在嵌入Token序列头部,即第0帧第0个Token位置处额外加入一个可训练的序列级动作分类为后续动作识别的展开做准备,针对某一动作序列样本,得到了长度为MT+1的Token序列,数学表示为:5.根据权利要求1所述的基于人体骨骼序列时空信息的动作识别方法,其特征在于,所述步骤2具体按照以下步骤实施:步骤2.1、Token序列掩码;经步骤1预处理后得到的嵌入Token序列使用Mask进行掩码操作,令掩码其中各个元素的取值只取0或1:给定掩码比例k,随机生成包含k
·
MT个0元素的掩码矩阵,然后对矩阵中元素...

【专利技术属性】
技术研发人员:李秀秀张溥武圣君刘旭峰金海燕王超贤王秀超王显阳魏雯雯黄梦泽
申请(专利权)人:西安理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1