基于SwinTransformer的RGB-D手势识别方法及手势识别系统技术方案

技术编号:37968881 阅读:7 留言:0更新日期:2023-06-30 09:44
本发明专利技术公开一种基于Swin Transformer的RGB

【技术实现步骤摘要】
基于Swin Transformer的RGB

D手势识别方法及手势识别系统


[0001]本专利技术涉及人工智能领域,具体涉及一种基于Swin Transformer的RGB

D手势识别方法及手势识别系统。

技术介绍

[0002]随着人工智能的发展,人与机器之间的交互方式变得越来越多样性,手势作为各种交互方式中最自然的一种方式,得到了越来越广泛的应用,基于视觉的手势识别方法具有成本低、识别方便等优点,成为手势识别的热门研究方向。基于视觉的方法一般采用普通的RGB相机和深度相机。相比于RGB相机,深度相机虽然成本较高,体积较大,但是它包含的深度图像能够反映出图像中各个点离相机的位置,包含着空间信息,将这两种信息融合起来能够提高手势识别的准确率。
[0003]最近随着Transformer越来越多的应用到计算机视觉领域,并且表现出强大的能力。然而在一些比较相似的手势上,仅从RGB图像进行分类,可能会出错,提取深度信息的特征会有效的补充特征,更准确的识别手势。

技术实现思路

[0004]本专利技术的目的在于根据在交互过程中手势识别准确性的问题,提出了一种基于Swin Transformer的RGB

D手势识别方法及手势识别系统。其中,使用Swin Transformer网络进行静态手势识别,手势信息采用深度摄像机拍摄的RGB

D图像,实际的识别手势过程中,将采用深度信息预测的结果与RGB信息预测的结果融合作为最终识别结果,提高手势识别准确率。其中,Swin Transformer(Shifted window Transformer)是一个基于Transformer的深度学习模型,在视觉任务中取得了最先进的性能。
[0005]本专利技术的技术方案为:
[0006]本专利技术提供一种基于Swin Transformer的RGB

D手势识别方法,包括:
[0007]步骤S1,获取用于手势识别的RGB图像和深度图像;
[0008]步骤S2,将RGB图像送入训练好的Swin Transformer的网络中,将深度图像送入到一个训练好的卷积神经网络中;
[0009]步骤S3,将两个网络的结果进行融合,得到最终结果;
[0010]进一步的,步骤S2中训练好的Swin Transformer的网络的张量维度最终为7*7*1024;
[0011]进一步的,步骤S2中的卷积神经网络结构,第1、2、4、5、7、8、10、11、13、14层为3*3的卷积层加上一个Relu层,第3、6、9、12层为2*2的最大池化层,经过前14层得到的张量的维度也是7*7*1024。
[0012]进一步的,所述步骤S3,是将经过卷积神经网络和Swin Transformer得到的两个张量加在一起,经过两个3*3的卷积层和一个Relu层,然后经过一个全局平均池化层,最后
使用softmax分类器得到手势的最终结果。
[0013]一种手势识别系统,用于实现上述识别方法,包括:数据获取模块、网络模块、结果输出模块;数据获取模块用来获取RGB图像和深度图像;并将图片送到网络模块;网络模块用于将上述的两种图像分别输入各自预训练好的网络中,进行识别,结果输出模块用于显示手势识别的结果。
[0014]本专利技术的基于Swin Transformer的RGB

D手势识别方法及手势识别系统,使用RGB

D相机收集图像,不需要使用者佩戴额外的设备,使用起来很方便,把深度图像的信息送到网络中训练,可以在手势很相似的时候,仅通过RGB图像很难分辨出正确的手势,通过把深度信息的结果与RGB的结果融合,来提高手势识别的准确率。。本方案在训练过程中使用深度信息,并将输出的结果与经过Swin Transformer的RGB的结果融合,来解决一些相似手势识别不准确的问题。
附图说明
[0015]图1为本实施例中的手势识别方法流程图
[0016]图2为本实施例中的手势识别系统模块图
具体实施方式
[0017]下面将结合本文实施例中的附图,对本文实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本文一部分实施例,而不是全部的实施例。基于本文中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本文保护的范围。
[0018]需要说明的是,本文的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本文的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0019]参照图1,本技术方案提供了一种基于Swin Transformer的RGB

D手势识别方法包括:
[0020]步骤S1,获取用手手势识别的RGB图像和深度图像
[0021]其中,手势识别的数据集主要是网络上的公开数据集,chalearn LAP ConGD数据集
[0022]步骤S2,将RGB图像送入训练好的Swin Transformer的网络中,将深度图像送入到一个训练好的卷积神经网络中;
[0023]其中所述的Swin Transformer网络的网络结构:首先Patch Partition,就是将所述RGB图像等分成小块的操作;然后分成4个阶段,每个阶段中包括两个部分,分别是patch Merging(第一个阶段是Linear Embeding)和Swin Transformer Block。patch Merging是一个类似于池化的操作,池化会损失信息,patch Merging不会。第一、二、四个阶段分别有2
个Swin Transformer Block,第三个阶段有18个Swin Transformer Block,得到的张量维度最终为7*7*1024;
[0024]其中,步骤S2中的Swin Transformer的训练过程是将数据集中的每一个RGB图像的每一帧分别保存下来,将这个手势动作的标签每帧图像的标签,将所有图像的大小调整为224*224,随机划分70%作为训练集,其余作为测试集;
[0025]其中,在训练所述的的Swin Transformer的网络过程中,通过ModelCheckpoint函数保存最优化的网络。
[0026]其中,步骤S2中的卷积神经网络的训练过程,将数据集中的每一个深度图像的每一帧分别保存下来,将这个手势动作的标签每帧图像的标签,将所有图像的大小调整本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Swin Transformer的RGB

D手势识别方法,其特征在于:该方法包括:步骤S1,获取用于手势识别的RGB图像和深度图像;步骤S2,将RGB图像送入训练好的Swin Transformer的网络中,将深度图像送入到训练好的卷积神经网络中;步骤S3,将两个网络的结果进行融合:具体是将经过卷积神经网络和Swin Transformer得到的两个张量加在一起,经过两个3*3的卷积层和一个Relu层,然后经过一个全局平均池化层,最后使用softmax分类器得到手势的最终结果。2.根据权利要求1所述的手势识别方法,其特征在于:步骤S2中训练好的Swin Transformer的网络的张量维度最终为7*7*1024。3.根据权利要求1所...

【专利技术属性】
技术研发人员:韩磊计鑫鹏方维高腾冉东升周奥
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1