一种基于自注意力机制和Bi-GRU的人体动作识别方法技术

技术编号:36607046 阅读:24 留言:0更新日期:2023-02-04 18:31
本发明专利技术请求保护一种基于自注意力机制和Bi

【技术实现步骤摘要】
一种基于自注意力机制和Bi

GRU的人体动作识别方法


[0001]本专利技术属于人体动作识别领域,特别涉及一种基于自注意力机制和Bi

GRU的人体动作识别方法。

技术介绍

[0002]人体动作识别指根据传感器得到的数据,将运动分类为预定义的人体动作类别。在健康监视系统、远程医疗保健、运动检测等领域已有非常重要的作用。基于惯性传感器的人体动作识别具有不受外界干扰、不受场景限制、抗干扰能力强等优点,更加适合日常运动和军事运用。
[0003]深度学习的提出使得机器学习取得了突破性的进展,也为人体动作识别带来了新发展方向。深度学习能自动从原始数据中学习深层次的特征,解决了传统机器学习的特征提取依赖研究人员先验知识导致算法泛化能力差的问题。
[0004]基于卷积神经网络和循环神经网络的人体动作识别技术是目前基于深度学习的人体动作识别技术中使用较多的技术。卷积神经网络能提取空间特征,循环神经网络能提取时间特征。但仍存在以下问题:1.对于人体动作识别这样一个时间关联强的任务来说,卷积网络提取的空间特征不够有效,导致对复杂动作识别准确率低。2.卷积网络计算复杂度太大、参数量太多。3.循环神经网络难以提取时间间隔较长的数据之间的时间特征,导致人体动作识别精度不够高。因此需要提出一种新的特征提取、识别方法,以提高人体动作识别精度和降低算法复杂度。
[0005]本专利技术和专利CN114639169A有本质的差异。本专利技术的数据源是惯性的传感的,CN114639169A使用WiFi,并且本专利技术没有使用复杂的卷积算法。
[0006]本专利技术通过自注意力机制提取全局时间关联特征,为保证Bi

GRU能提取到原始数据的局部时间顺序特征,将自注意力机制的输出与原始输入数据拼接。再通过Bi

GRU提取局部时间顺序特征,实现了时域特征的完整提取。同时自注意力机制结合Bi

GRU结构简单、参数量低,解决了卷积网络参数量大、结构复杂的问题。

技术实现思路

[0007]本专利技术旨在解决以上现有技术的问题。提出了一种基于自注意力机制和Bi

GRU的人体动作识别方法。本专利技术的技术方案如下:
[0008]一种基于自注意力机制和Bi

GRU的人体动作识别方法,其包括以下步骤:
[0009]S1:记录人体动作的惯性传感器数据,并通过滑动窗口截取数据和数据对应的动作类别标签;
[0010]S2:构建一个Encoder

Decoder模型;所述Encoder

Decoder模型包括Encoder和Decoder,将数据输入Encoder编码器中进行编码,通过Encoder编码器中的多头自注意力层提取输入数据之间的时间关联特征,再与原始输入数据进行拼接;
[0011]S3:Decoder解码:所述Decoder译码器包括双向门控循环单元Bi

GRU、全连接层、
Softmax层,将Encoder的输出数据,输入双向门控循环单元Bi

GRU进行进一步时间顺序特征提取;全连接层将特征整合为向量,Softmax层将全连接层输出转化为概率分布;
[0012]S4:将Bi

GRU的输出特征,输入全连接层得到一个输出向量,该输出向量维度为分类标签总数,向量第N维数值为输入惯性传感器数据对应的动作为第N种动作的可能性;
[0013]S5:根据样本数据对模型进行训练,再将未知分类标签的惯性传感器数据输入已训练好的模型,得到其人体动作类别。
[0014]进一步的,所述S1具体包括:
[0015]利用位于躯干的惯性传感器记录关于人体动作的惯性传感器时序数据,并设置一定长度的滑动窗口,截取相应长度的数据以及每个滑动窗口对应的人体动作类别。
[0016]进一步的,所述步骤S2中的多头自注意力层包含三个全连接层:query(查询)、key(键)、value(值),输入数据通过这三个全连接层分别得到Q、K、V矩阵,然后通过进一步计算得到Attention

Score注意力得分矩阵,为保证Bi

GRU能学习到原始数据的时域特征,将Attention

Score矩阵与原始数据在最后一维上拼接,得到Encoder的输出。
[0017]进一步的,所述Attention

Score矩阵计算公式为:
[0018][0019]其中Head_size代表Multi

Head每个head的维度大小,Softmax代表Softmax函数,对矩阵的每一行进行计算,Softmax公式如下:
[0020][0021]其中y
a
表示Attention

Score矩阵某行第a列的值,y
b
表示矩阵某行第b列的值,w表示矩阵列数。
[0022]进一步的,所述全连接层后接Softmax层,Softmax层根据全连接层输出的向量,利用Softmax公式把计算当前输入Encoder

Decoder模型的传感器时序数据x分类标签为i的概率Q(i|x);Softmax公式如下:
[0023][0024]其中z
i
表示输入序列x对应的最后一个全连接层第i个神经元的输出,其中z
c
表示全连接层第c个神经元的输出,第N维数值为输入滑动窗口内惯性传感器数据对应的动作为第N类动作的概率,其中Softmax(z
i
)=Q(i|x);
[0025]选择最大的Q(i|x)对应的动作i作为人体动作识别结果。
[0026]若Softmax(z
i
)为Softmax函数结果的最大值,那么输入数据x对应的动作识别结果为第i类标签动作。
[0027]进一步的,损失函数采用平衡交叉熵函数:
[0028][0029]其中等式右边的前半部分为平衡交叉熵损失函数,α
i
表示第i动作的损失权重,N表示动作种类数,P表示真实标签转为one

hot编码后的概率分布,Q表示把模型输出的向量
看作动作概率分布;P(x
ji
)表示第j个输入序列x对应的真实标签中第i动作的概率,Q(x
ji
)表示第j个输入序列x对应的模型输出中第i动作的概率;通过分配不同的损失权重可解决数据集样本量不均衡的问题;后半部分为L2正则项;其中λ为正则项系数,θ表示算法中可学习参数的集合,m为算法中可学习参数的数量。
[0030]本专利技术的优点及有益效果如下:
[0031]本专利技术的Encoder

Decoder模型是一种网络结构简单、轻量的神经网络模型。不同于普通的基本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自注意力机制和Bi

GRU的人体动作识别方法,其特征在于,包括以下步骤:S1:记录人体动作的惯性传感器数据,并通过滑动窗口截取数据和数据对应的动作类别标签;S2:构建一个Encoder

Decoder模型;所述Encoder

Decoder模型包括Encoder和Decoder,将数据输入Encoder编码器中进行编码,通过Encoder编码器中的多头自注意力层提取输入数据之间的时间关联特征,再与原始输入数据进行拼接;S3:Decoder解码:所述Decoder译码器包括双向门控循环单元Bi

GRU、全连接层、Softmax层,将Encoder的输出数据,输入双向门控循环单元Bi

GRU进行进一步时间顺序特征提取;全连接层将特征整合为向量,Softmax层将全连接层输出转化为概率分布;S4:将Bi

GRU的输出特征,输入全连接层得到一个输出向量,该输出向量维度为分类标签总数,向量第N维数值为输入惯性传感器数据对应的动作为第N种动作的可能性;S5:根据样本数据对模型进行训练,再将未知分类标签的惯性传感器数据输入已训练好的模型,得到其人体动作类别。2.根据权利要求1所述的一种基于自注意力机制和Bi

GRU的人体动作识别方法,其特征在于,所述S1具体包括:利用位于躯干的惯性传感器记录关于人体动作的惯性传感器时序数据,并设置一定长度的滑动窗口,截取相应长度的数据以及每个滑动窗口对应的人体动作类别。3.根据权利要求1所述的一种基于自注意力机制和Bi

GRU的人体动作识别方法,其特征在于,所述步骤S2中的多头自注意力层包含三个全连接层:query查询、key键、value值,输入数据通过这三个全连接层分别得到Q、K、V矩阵,然后通过进一步计算得到Attention

Score注意力得分矩阵,为保证Bi

GRU能学习到原始数据的时域特征,将Attention

Score矩阵与原始数据在最后一维上拼接,得到Encoder的输出。4.根据权利要求3所述的一种基于自注意力机制和Bi

GRU的人体动作识别方法,其特征在...

【专利技术属性】
技术研发人员:路永乐修蔚然韩亮杨杰孙旗罗毅彭慧刘宇
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1