一种基于骨骼坐标点的动作识别方法、系统、设备及介质技术方案

技术编号:38002295 阅读:12 留言:0更新日期:2023-06-30 10:16
本发明专利技术公开了一种基于骨骼坐标点的动作识别方法、系统、设备及介质,所述基于骨骼坐标点的动作识别方法包括以下步骤:获取待动作识别的骨骼坐标点视频序列;其中,所述骨骼坐标点视频序列包括查询序列和支撑序列;基于获取的所述骨骼坐标点视频序列,利用预先训练好的动作识别模型进行动作识别,获得动作识别分类结果。本发明专利技术提供的技术方案,具体是一种基于并行时空交互对齐的小样本骨骼动作识别方法,能够有效的比较查询样本和每类支撑样本的相似性,且能够准确进行小样本的动作分类。且能够准确进行小样本的动作分类。且能够准确进行小样本的动作分类。

【技术实现步骤摘要】
一种基于骨骼坐标点的动作识别方法、系统、设备及介质


[0001]本专利技术属于计算机视觉
,特别涉及一种基于骨骼坐标点的动作识别方法、系统、设备及介质。

技术介绍

[0002]在小样本场景中,基于骨骼点的动作识别是一种使用少量骨骼动作来训练模型识别人类动作的任务,该任务通常使用少量表示人类动作的骨架动作数据来训练模型,然后在新动作类别数据集上对该模型的泛化性进行测试,该任务有许多具有现实意义的应用场景,如医学动作视频分析、高速运动场景识别等。
[0003]目前,现有的小样本下骨骼动作识别方法尚存在以下问题:
[0004](1)现有的模型没有考虑骨骼序列上的时序帧错位和空间上关节点的位置差异,这些空间和时序信息对于小样本间的比较非常重要,导致在相似的查询(query)和支撑(support)动作匹配时难以区分;
[0005](2)人类骨骼具有强语义性的拓扑结构,每个关节点在动作中承担不同的物理意义;然而,现有的方法没有合理利用拓扑信息,得到不具区分性的语义特征,使得小样本分类准确率不高。

技术实现思路

[0006]本专利技术的目的在于提供一种基于骨骼坐标点的动作识别方法、系统、设备及介质,以解决上述存在的一个或多个技术问题。本专利技术提供的技术方案,具体是一种基于并行时空交互对齐的小样本骨骼动作识别方法,能够有效的比较查询样本和每类支撑样本的相似性,且能够准确进行小样本的动作分类。
[0007]为达到上述目的,本专利技术采用以下技术方案:
[0008]本专利技术第一方面提供的一种基于骨骼坐标点的动作识别方法,包括以下步骤:
[0009]获取待动作识别的骨骼坐标点视频序列;其中,所述骨骼坐标点视频序列包括查询序列和支撑序列;
[0010]基于获取的所述骨骼坐标点视频序列,利用预先训练好的动作识别模型进行动作识别,获得动作识别分类结果;
[0011]其中,所述动作识别模型包括:
[0012]特征提取模块,用于输入骨骼坐标点视频序列进行特征提取,获取关节点级别特征;
[0013]拓扑编码模块,用于输入关节点级别特征进行特征提取,获得身体局部特征和语义关联特征;
[0014]注意力交互网络模块,包括并行的基于空间交互的对齐网络分支和基于时间交互的对齐网络分支;其中,所述基于空间交互的对齐网络分支用于输入关节点级别特征、身体局部特征和语义关联特征,输出查询序列到支撑序列的空间类别距离分数;所述基于时间
交互的对齐网络分支用于输入关节点级别特征、身体局部特征和语义关联特征,输出查询序列到支撑序列的时间类别距离分数;所述注意力交互网络模块用于基于空间类别距离分数和时间类别距离分数,获取加权和类别距离分数;
[0015]最近邻分类器,用于输入加权和类别距离分数并进行分类,输出动作识别分类结果。
[0016]本专利技术方法的进一步改进在于,所述特征提取模块中,输入骨骼坐标点视频序列进行特征提取,获取关节点级别特征的步骤包括:
[0017]将骨骼坐标点转化为关节点位置、骨骼长度向量、骨骼速度向量三组信息;
[0018]采用基于前融合的图卷积编码器对关节点位置、骨骼长度向量、骨骼速度向量三组信息进行并行编码,生成查询关节点级别特征和支撑关节点级别特征。
[0019]本专利技术方法的进一步改进在于,所述拓扑编码模块中,输入关节点级别特征进行特征提取,获得身体局部特征和语义关联特征的步骤包括:
[0020]根据人体骨骼结构,将人类身体结构划分为左臂、右臂、左腿、右腿和躯干共5个身体局部;根据先验知识构建局部

节点邻接矩阵V表示关节点的数量,P表示局部的数量;所述局部

节点邻接矩阵的每列由0和1表示的独热向量编码组成,用于代表节点属于人体骨骼拓扑的特定局部;
[0021]使用互注意力机制学习关节点级别特征F和局部节点特征之间的语义交互,令关节点包含丰富的身体局部整体运动模式,表达式为,
[0022][0023]式中,是缩放系数,是使用逆度矩阵归一化后的邻接矩阵,W为线性映射权重,F
part
为身体局部特征,Softmax()表示归一化指数函数;
[0024]在空间交互中为每个关节点赋予语义信息,获得语义关联特征;其中,为每个关节点对分配一组可训练参数作为偏置项,构成语义偏置邻接矩阵作为语义关联特征,用于表示V
×
V对节点间的语义关联。
[0025]本专利技术方法的进一步改进在于,所述注意力交互网络模块中,所述基于空间交互的对齐网络分支输入关节点级别特征、身体局部特征和语义关联特征,输出查询序列到支撑序列的空间类别距离分数的步骤包括:
[0026]利用双向的空间互注意力调整查询关节点级别特征和支撑关节点级别特征之间逐帧的节点响应,获得查询和支撑骨骼级别特征;将获得的查询和支撑骨骼级别特征,在时序上划分为所有子序列特征的集合;通过遍历所有时序上的子序列组合,得到组合后的查询和支撑时序特征;使用单向平均对称表面准则衡量查询和支撑时序特征间的相似度,令查询时序特征在时序上所有相似度分数的累积和作为查询序列到支撑序列的空间类别距离分数;
[0027]其中,
[0028]查询骨骼级别特征的表达式为,
[0029][0030][0031]式中,F
q

s
表示对齐后的查询骨骼级别特征;GAP表示空间维度上的全局平均池化;FFN表示前馈神经网络;A
q

s
表示支撑对查询的权重矩阵;表示线性映射权重;为查询关节点级别特征,T表示时间长度,V表示关节点的数量,C表示通道维度数;为支撑关节点级别特征;F
part
为身体局部特征;为语义关联特征;
[0032]支撑骨骼级别特征的表达式为,
[0033][0034][0035]式中,表示线性映射权重,A
s

q
表示查询对支撑的权重矩阵,表示对齐后的支撑骨骼级别特征;
[0036]查询序列到支撑序列的空间类别距离分数的表达式为,
[0037][0038]式中,D(q,c)为查询序列到支撑序列的空间类别距离分数,c为动作类别,和分别为组合后的查询和支撑时序特征,i和j分别为查询和支撑特征在时序维度的索引,T

为时序子序列的长度。
[0039]本专利技术方法的进一步改进在于,所述注意力交互网络模块中,所述基于时间交互的对齐网络分支输入关节点级别特征、身体局部特征和语义关联特征,输出查询序列到支撑序列的时间类别距离分数的步骤包括:
[0040]利用关节点语义关联特征和身体局部特征对查询和支撑关节点级别特征内部逐帧调整关节点响应,获得查询和支撑骨骼级别特征;对查询与支撑骨骼级别特征先进行时间维度的交互,再进行通道维度的交互,获得交互后的骨骼级别特征;将交互后的骨骼级别特征在时序上划分为所有子序列特征的集合本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于骨骼坐标点的动作识别方法,其特征在于,包括以下步骤:获取待动作识别的骨骼坐标点视频序列;其中,所述骨骼坐标点视频序列包括查询序列和支撑序列;基于获取的所述骨骼坐标点视频序列,利用预先训练好的动作识别模型进行动作识别,获得动作识别分类结果;其中,所述动作识别模型包括:特征提取模块,用于输入骨骼坐标点视频序列进行特征提取,获取关节点级别特征;拓扑编码模块,用于输入关节点级别特征进行特征提取,获得身体局部特征和语义关联特征;注意力交互网络模块,包括并行的基于空间交互的对齐网络分支和基于时间交互的对齐网络分支;其中,所述基于空间交互的对齐网络分支用于输入关节点级别特征、身体局部特征和语义关联特征,输出查询序列到支撑序列的空间类别距离分数;所述基于时间交互的对齐网络分支用于输入关节点级别特征、身体局部特征和语义关联特征,输出查询序列到支撑序列的时间类别距离分数;所述注意力交互网络模块用于基于空间类别距离分数和时间类别距离分数,获取加权和类别距离分数;最近邻分类器,用于输入加权和类别距离分数并进行分类,输出动作识别分类结果。2.根据权利要求1所述的一种基于骨骼坐标点的动作识别方法,其特征在于,所述特征提取模块中,输入骨骼坐标点视频序列进行特征提取,获取关节点级别特征的步骤包括:将骨骼坐标点转化为关节点位置、骨骼长度向量、骨骼速度向量三组信息;采用基于前融合的图卷积编码器对关节点位置、骨骼长度向量、骨骼速度向量三组信息进行并行编码,生成查询关节点级别特征和支撑关节点级别特征。3.根据权利要求1所述的一种基于骨骼坐标点的动作识别方法,其特征在于,所述拓扑编码模块中,输入关节点级别特征进行特征提取,获得身体局部特征和语义关联特征的步骤包括:根据人体骨骼结构,将人类身体结构划分为左臂、右臂、左腿、右腿和躯干共5个身体局部;根据先验知识构建局部

节点邻接矩阵V表示关节点的数量,P表示局部的数量;所述局部

节点邻接矩阵的每列由0和1表示的独热向量编码组成,用于代表节点属于人体骨骼拓扑的特定局部;使用互注意力机制学习关节点级别特征F和局部节点特征之间的语义交互,令关节点包含丰富的身体局部整体运动模式,表达式为,式中,是缩放系数,是使用逆度矩阵归一化后的邻接矩阵,W为线性映射权重,F
part
为身体局部特征,Softmax()表示归一化指数函数;在空间交互中为每个关节点赋予语义信息,获得语义关联特征;其中,为每个关节点对分配一组可训练参数作为偏置项,构成语义偏置邻接矩阵作为语义关联特征,用于表示V
×
V对节点间的语义关联。
4.根据权利要求1所述的一种基于骨骼坐标点的动作识别方法,其特征在于,所述注意力交互网络模块中,所述基于空间交互的对齐网络分支输入关节点级别特征、身体局部特征和语义关联特征,输出查询序列到支撑序列的空间类别距离分数的步骤包括:利用双向的空间互注意力调整查询关节点级别特征和支撑关节点级别特征之间逐帧的节点响应,获得查询和支撑骨骼级别特征;将获得的查询和支撑骨骼级别特征,在时序上划分为所有子序列特征的集合;通过遍历所有时序上的子序列组合,得到组合后的查询和支撑时序特征;使用单向平均对称表面准则衡量查询和支撑时序特征间的相似度,令查询时序特征在时序上所有相似度分数的累积和作为查询序列到支撑序列的空间类别距离分数;其中,查询骨骼级别特征的表达式为,查询骨骼级别特征的表达式为,式中,F
q

s
表示对齐后的查询骨骼级别特征;GAP表示空间维度上的全局平均池化;FFN表示前馈神经网络;A
q

s
表示支撑对查询的权重矩阵;表示线性映射权重;为查询关节点级别特征,T表示时间长度,V表示关节点的数量,C表示通道维度数;为支撑关节点级别特征;F
part
为身体局部特征;为语义关联特征;支撑骨骼级别特征的表达式为,支撑骨骼级别特征的表达式为,式中,表示线性映射权重,A
s

q
表示查询对支撑的权重矩阵,表示对齐后的支撑骨骼级别特征;查询序列到支撑序列的空间类别距离分数的表达式为,式中,D(q,c)为查询序列到支撑序列的空间类别距离分数,c为动作类别,和分别为组合后的查询和支撑时序特征,i和j分别为查询和支撑特征在时序维度的索引,T

为时序子序列的长度。5.根据权利要求1所述的一种基于骨骼坐标点的动作识别方法,其特征在于,所述注意力交互网络模块中,所述基于时间交互的对齐网络分支输入关节点级别特征、身体局部特
征和语义关联特征,输出查询序列到支撑序列的时间类别距离分数的步骤包括:...

【专利技术属性】
技术研发人员:王乐刘星宇周三平陈仕韬辛景民郑南宁
申请(专利权)人:宁波市舜安人工智能研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1