一种基于3D卷积神经网络的动态手势识别方法技术

技术编号:32578400 阅读:31 留言:0更新日期:2022-03-09 17:08
本发明专利技术公开了一种基于3D卷积神经网络的动态手势识别方法。其方案是:(1)对公开的动态手势数据集进行预处理;(2)将R(2+1)D

【技术实现步骤摘要】
一种基于3D卷积神经网络的动态手势识别方法


[0001]本专利技术涉及机器视觉领域,具体为一种基于3D卷积神经网络的动态手势识别方法。

技术介绍

[0002]随着机器学习和深度学习的不断发展,动态手势识别成为计算机视觉、物联网和人工智能等领域的研究热点,对智慧医疗、智能家居等行业有重要作用。
[0003]动态手势识别方法主要有:基于手工提取特征的动态手势识别方法和基于深度神经网络学习特征的动态手势识别方法。基于手工提取特征的动态手势识别方法根据不同场景的要求提取相应的特征,最终利用分类器将分类结果输出,但是受环境的影响较大,且需要人工提取手势动作图像特征,工作量大,耗费时间;基于深度神经网络学习特征的动态手势识别方法从数据中自动学习目标特征,输入一段视频,通过神经网络完成对视频中动态手势特征的提取,避免了手工提取特的过程。
[0004]现有基于深度学习的动态手势识别方法中所设计的神经网络结构复杂,容易产生梯度爆炸以及梯度消失的问题;同时,现存网络往往注重高层的语义信息的利用,对浅层特征信息挖掘利用不够。/>[0005]为解本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于3D卷积神经网络的动态手势识别方法,其特征在于:所述方法通过以下步骤实现:(1)对公开的动态手势数据集进行预处理:(1

1)帧截取:对公开动态手势数据集的每一个动作视频以原始的帧速率进行帧采样,确保一个动作视频提取出的动作图像不少于16帧;(1

2)数据标定:动态手势数据集的动作一共为N类,标签分别标记为1到N,动态手势视频一共有M个;其中M1个视频进行帧提取后的动作图像作为训练数据,剩余的M2个视频进行帧提取后的动作图像作为测试数据;(1

3)图像裁剪与数据增强:将尺寸不一的动作图像统一裁剪成尺寸为112X112的图像,然后进行随机水平或垂直翻转,将动作图像的RGB数据进行平均归一化;(2)将R(2+1)D

18网络增加跳残差结构:增加跳残差结构:R(2+1)D

18网络结构包括一个时空卷积层,四个残差层,一个平均池化层以及一个全连接层,其中,每个残差层包含两个残差块,每个残差块包含两个时空卷积层;将以上结构中的第一个时空卷积层和第三个残差层之间增加一个跳残差结构;(3)将R(2+1)D

18网络提取的浅层特征与深层特征相融合:(3

1)提取第一个残差层的特征:在R(2+1)D

18网络中的第一个残差层后新增一个分支,连接一个时空卷积层,一个批归一化层,一个平均池化层,一个全连接层,提取浅层特征;(3

2)提取第二个残差层的特征:在R(2+1)D

18网络中的第二个残差层后新增一个分支,连接一个时空卷积层,一个批归一化层,一个平均池化层,一个全连接层,提取浅层特征;(3

3)将浅层特征与深层特征融合:将上述第一个残差层后新增分支中的全连接层的输出特征与第二个残差层后新增分支中的全连接层的输出特征与原R(2+1)D

18网络中的全连接层的输出特征进行加权融合;(4)对改造后的R(2+1)D

18网络进行训练和测试:对动态手势数据集进行训练,剖析整个网络训练的损失函数,若不收敛则不断迭代更新网络参数调整网络结构,重新对网络进行训练,若整个网络趋于收敛则得到改造的R(2+1)D

18动态手势识别网络模型,对动态手势识别网络模型进行测试,得到分类的准确率,通过比较和评价得到动态手势的分类结果,实现对动态手势的分类,最后进行分析和总结。2.根据权利要求1所述一种基于3D卷积神经网络的动态手势识别方法,其特征在于:将R(2+1)D

18网络增加跳残差结构,将R(2+1)D

18网络提取的浅层特征与深层特征相融合,将动态手势数据集中的图像输入到网络模型中,一个训练批次送入16帧手势动作图像,改造的R...

【专利技术属性】
技术研发人员:刘杰王月王鹏
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1