本发明专利技术公开了一种基于Transformer与LSTM知识共享网络的动态手势识别方法。首先获取动态手势数据集,应用不同的数据增强方法增加样本数量,得到数据增强后的数据集;之后将数据增强后的数据集中的数据输入Transformer子网络和LSTM子网络分别提取手势序列特征;将手势序列特征直接或融合输入对应分类器,得到对应的离散概率分布;最后输出类别决策,并进行知识共享和监督训练;本发明专利技术通过Transformer和LSTM来提取手势序列数据的特征,在理解序列关系的同时能够充分运用手势数据的树状结构。并且使用了知识共享的方法分享分类器中的参数信息,使得分类结果具有更高的准确性。
【技术实现步骤摘要】
本专利技术涉及深度学习领域,特别涉及一种基于transformer与lstm知识共享网络的动态手势识别方法。
技术介绍
1、随着技术发展,手势识别技术被广泛应用于当前智能环境的发展。手势不仅能够用于行为识别,还被探索用作主体身份验证密码的替代方法。在日常生活中,越来越多的人希望能够更加便捷地生活,这促使研究人员希望构建一类自动化的行为生物识别分析系统。手势识别技术的进步使得能够更准确地检测和预测人类活动,特别是在紧急情况下通过相关的监测系统提供支持。
2、近年来,深度学习技术对手势识别系统的准确性进行了显著提升。深度学习方法克服了诸如手工特征提取、浅层特征、大量标记数据等挑战。研究者提出了基于深度学习的手势识别方法,其中使用3d卷积神经网络(cnn)进行手势分类,使用循环神经网络(rnn)从骨骼序列中提取全局和手指运动特征,还提出了基于骨架信息的cnn和lstm组合的动态手势识别方法。同时,也研究了将时空信息融合应用于动作识别。但由于研究工具的限制,大部分研究只关注于序列数据的时序关系而忽略了序列间的注意力关系,基于深度学习的手势识别准确性和鲁棒性始终不足。
技术实现思路
1、针对现有技术存在的缺陷,本专利技术提供一种基于transformer与lstm知识共享网络的动态手势识别方法。本专利技术旨在解决如何通过transformer和lstm网络从手势数据中同时获取注意力信息和时序信息,并且独立或融合地输入分类器,通过知识共享和集成方法准确地预测手势的行为意图。
2、为了达到上述目的,我们首先需要获取动态手势数据集dhg-14/28,并对数据集应用不同的数据增强方法增加样本数量。然后输入子网络分别提取手势序列特征,直接或融合后输入对应的分类器,最后将分类结果集成输出,从而提高预测分类的准确性和鲁棒性。
3、一种基于transformer与lstm知识共享网络的动态手势识别方法,步骤如下:
4、步骤1、获取dhg-14/28动态手势数据集。
5、步骤2、应用不同的数据增强方法增加样本数量,得到数据增强后的数据集。
6、步骤3、将数据增强后的数据集中的数据输入transformer子网络和lstm子网络分别提取手势序列特征。
7、步骤4、将手势序列特征直接或融合输入对应分类器,得到对应的离散概率分布。
8、步骤5、输出类别决策,并进行知识共享和监督训练。
9、采用kl散度和交叉熵结合的损失函数对模型进行知识共享和监督训练。
10、进一步的,步骤1具体方法如下:
11、该数据集一共有14个种类共2800个序列,使用英特尔realsense短距离深度相机拍摄,以每秒30帧的速度采集,图像分辨率为640x480。序列的每一帧包含一个深度图像,包含22个关节在二维深度图像空间和三维空间中的坐标。
12、进一步的,步骤2所述的数据增强方法包括模拟噪声、尺度缩放、时间扭曲。每一种数据增强方法都会得到2800个增强数据,加上原有的2800个数据,使得增强后数据集中样本数量为11200。
13、进一步的,步骤3具体方法如下:
14、使用transformer-encoder模块作为transformer子网络,用于提取手势序列的特征,使用on-lstm网络作为lstm子网络,用于更好的分析手部关节的树状结构。
15、ft=transformer-encoder(i)
16、fl=on-lstm(i)
17、其中ft和fl分别表示经过transformer-encoder和on-lstm后输出的手势序列特征。i表示数据增强后的数据集中的数据。
18、transformer-encoder中处理序列数据的机制如下。
19、先进行输入嵌入:
20、e=[emb1,emb2,...,embl]=embedding(i)
21、然后是多头注意力机制:
22、
23、h=concat(head1,head2,...,headh)wo
24、最后进行线性变换:
25、ft=linear(h)
26、其中e表示嵌入后的向量,headi表示第i个头的自注意力,q,k,v分别表示查询向量、键向量和值向量,是通过e做对应的线性变换得来的。h表示注意力头的数量,headi表示第i个头的输出,wo是输出变换矩阵,h表示多头注意力机制输出的向量。embedding,concat和linear分别表示嵌入、拼接和线性变换操作。
27、lstm中处理序列数据的机制如下。
28、序列数据:
29、i=[x1,x2,...,xl]
30、记忆细胞单元更新机制:
31、ft=sigmoid(wfhht-1+wfxxt+bf)
32、it=sigmoid(wihht-1+wixxt+bi)
33、
34、
35、隐藏层输出的更新机制为:
36、ot=sigmoid(wohht-1+woxxt+bo)
37、ht=ot·tanh(ct)
38、将最后一个时刻的隐藏层状态作为输出,即:
39、fl=hl
40、其中,ft为遗忘门向量,it为输入门向量,为候选值向量,ot为输出门向量,ht-1为上一时刻的隐藏层输出,ht为当前时刻的隐藏层输出,xt为当前时刻的输入,w和b分别表示其下标所对应的权值矩阵和偏置值。hl表示最后一个时刻的隐藏层状态。
41、进一步的,步骤4具体方法如下:
42、构建三个分类器classifier-t,classifier-l和classifier-f。classifier-t用于对transformer子网络输出的手势序列特征ft进行分类,classifier-l用于对lstm子网络输出的手势序列特征fl进行分类,并将ft和fl融合后得到的融合特征ff输入classifier-f进行分类。三个分类器都是基于多层感知机(mlp)结构,每个分类器都包含三层神经网络,其中每一层都由全连接层和sigmoid激活函数组成,最后经过softmax层分别输出类别概率。classifier-t输出离散概率分布pt,classifier-l输出离散概率分布pl,classifier-f输出离散概率分布pf。
43、进一步的,步骤5具体方法如下:
44、对于步骤4中三个分类器的概率输出pt、pl和pf,求概率分布的平均作为模型最终的输出概率分布po,即:
45、
46、最后,取离散概率分布po中概率最大值所对应的类别作为类别决策d。在classifier-t,classifier-l和classifier-f之外,额外构建了一个隐藏的分本文档来自技高网
...
【技术保护点】
1.一种基于Transformer与LSTM知识共享网络的动态手势识别方法,其特征在于,步骤如下:
2.根据权利要求1所述的一种基于Transformer与LSTM知识共享网络的动态手势识别方法,其特征在于,步骤2所述的数据增强方法包括模拟噪声、尺度缩放、时间扭曲;每一种数据增强方法都会得到2800个增强数据,加上原有的2800个数据,使得增强后数据集中样本数量为11200。
3.根据权利要求1或2所述的一种基于Transformer与LSTM知识共享网络的动态手势识别方法,其特征在于,步骤3具体方法如下:
4.根据权利要求3所述的一种基于Transformer与LSTM知识共享网络的动态手势识别方法,其特征在于,步骤4具体方法如下:
5.根据权利要求4所述的一种基于Transformer与LSTM知识共享网络的动态手势识别方法,其特征在于,步骤5具体方法如下:
6.根据权利要求5所述的一种基于Transformer与LSTM知识共享网络的动态手势识别方法,其特征在于,由于引入了KL散度知识共享和交叉熵监督训练,对于Classifier-T和Classifier-L来说,损失函数可表示为:
7.根据权利要求1所述的一种基于Transformer与LSTM知识共享网络的动态手势识别方法,其特征在于,步骤1具体方法如下:
...
【技术特征摘要】
1.一种基于transformer与lstm知识共享网络的动态手势识别方法,其特征在于,步骤如下:
2.根据权利要求1所述的一种基于transformer与lstm知识共享网络的动态手势识别方法,其特征在于,步骤2所述的数据增强方法包括模拟噪声、尺度缩放、时间扭曲;每一种数据增强方法都会得到2800个增强数据,加上原有的2800个数据,使得增强后数据集中样本数量为11200。
3.根据权利要求1或2所述的一种基于transformer与lstm知识共享网络的动态手势识别方法,其特征在于,步骤3具体方法如下:
4.根据权利要求3所述的一种基于transformer...
【专利技术属性】
技术研发人员:郑博仑,徐逸杰,介曦冉,张桦,王烨茹,
申请(专利权)人:杭州电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。