一种基于深度学习的动态手势识别方法技术

技术编号:33135196 阅读:20 留言:0更新日期:2022-04-17 00:59
本发明专利技术属于利用深度学习方法进行动态手势识别领域,本文提出了一种基于三维卷积神经网络的算法进行动态手势识别。现有基于深度学习的动态手势识别方法中,因为需要对视频空间信息和时序信息进行提取,网络输入信息量较大,导致其参数和计算量都十分庞大,网络结构复杂,实时性不高。本发明专利技术针对手势识别模型训练前人工提取特征繁琐和提取特征不够精细的问题,提出了利用关键帧提取特征的方式,提高了特征提取的效率和精度。针对现有基于图像处理的手势识别技术受外界环境影响大和稳定性欠佳等问题,设计三维卷积网络融合了图像的时空信息,减小了信息输入的损失,具有更好的稳定性和实时性。定性和实时性。定性和实时性。

【技术实现步骤摘要】
一种基于深度学习的动态手势识别方法


[0001]本专利技术属于利用深度学习方法进行动态手势识别领域,涉及本文提出了一种基于三维卷积神经网络的算法进行动态手势识别。

技术介绍

[0002]手势又分为静态手势和动态手势,静态手势识别只是对一幅图片中的手型做出分类,例如对“OK”这种手势进行分类,在学习特征时只关注手势的空间特征。动态手势识别则是对图像序列组成的手势进行识别,在特征提取时不但要提取空间特征,更要提取时间特征。相较于静态手势识别,动态手势更贴近人的表达习惯、有更丰富的信息表达、更具有现实意义。目前,研究人员已经提出了多种动态手势识别的算法,有动态手势特征提取算法如MEI算法,HOG算法和HOF算法,也有分类算法如隐马尔科夫模型等。而随着深度学习技术的发展,也有很多视频分类算法如C三维,双流卷积网络和LSTM等被应用于动态手势识别,并得到了较高的识别率。在现有基于深度学习的动态手势识别方法中,因为需要对视频空间信息和时序信息进行提取,网络输入信息量较大,导致其参数和计算量都十分庞大,网络结构复杂,实时性不高。如果能对网络输入进行优化筛选,并对改进现有的特征提取方法,就可以实现动态手势识别效果的提高。

技术实现思路

[0003]本专利技术要解决的问题是:现有基于图像处理的手势识别技术存在不足,如受外界环境影响大、人工提取手势特征繁琐、提取特征不够精细及稳定性欠佳等。因此,本专利技术利用卷积神经网络实现手势视频定位分类,并结合动态手势特点,提出了一种三维卷积神经网络的动态手势识别方法。
[0004]本专利技术的技术方案为:首先对于动态手势数据进行采集与预处理,数据分为训练数据与测试数据;在获得了数据之后进行实验测试环境的搭建,分为硬件与软件的搭建,所有的实验都是在windows10系统下进行的,其中显卡为NVIDIA GTX3060Ti 8G,所运行软件环境配置为:python3.6,pytorch

1.3.0+torchvision

0.5.0,opencv

python

4.5.0等其他辅助Python库;其次进行神经网络的结构设计;然后把经过标记的训练数据放入此网络结构中进行学习;最后输入测试数据样本进行测试,得出最后的动态识别精度;包括如下步骤
[0005]步骤1:动态手势样本采集,采用EgoGesture手势数据集中50个动态手势视频片段进行实验。EgoGesture手势数据集包含50个不同主题的2,081个RGB

D视频,24,161个手势样本和2,953,224帧。每个视频样本都由Intel RealSense SR300相机拍摄,数据格式为RDB

D,每帧视频以640
×
480像素的分辨率和30fps录制。其中有33种静态和50种动态手势,为满足本方法训练测试要求,需要对数据进行动作区域切分提取操作,将每个动作依据发生时间区间和类别进行提取,获得50*300*2个包含深度和彩色的动态手势片段。对于双模态的数据库样本,分别随机将其中60%作为训练集,20%作为验证集,20%作为测试集。
[0006]步骤2:图像预处理,输入采用的是16帧长度的视频,对数据进行预处理,使得数据长度符合神经网络的输入要求。
[0007]步骤3:搭建实验平台;
[0008]步骤4:三维卷积神经网络设计。
[0009]步骤5:模型训练。将50类动态手势的训练集和测试集输入模型进行训练,使用带动量的小批量随机梯度下降算法对三维卷积神经网络进行优化,其中训练步数为101步,批量大小为16,初始学习率为0.01,学习率衰减因子为每3000次迭代衰减0.1,在训练模型时,每隔20步对模型进行一次验证调整,保证模型的准确率和泛化性。
[0010]步骤6:实验与结果。将50种动态手势的验证集按模型正向传播方法进行准确度测试,得到各类动态手势识别精度
[0011]进一步地,步骤2具体为:首先利用RGB

D图像对手势区域进行分割提取,获得去除背景的手部图像,然后利用相邻图像像素标准差算法对图像序列中相邻图像帧差进行计算,然后对帧差大小进行排序,完成关键帧提取。在帧差值计算中,以帧间差分标准差L
n
为关键帧的评价标准。预设关键帧的数量K,计算第n帧图像灰度值变化的标准差。设输入视频序列的连续帧图像分别为f
n
,f
n+1
,图像上像素点为(x,y),该点在两帧图像上所对应灰度值分别为f
n
(x,y),f
n+1
(x,y),根据公式1计算帧间距离,表示第n张图像第i个像素点的灰度值。然后,计算帧差的最大值和最小值,并根据公式2计算出中间值mid(L)。然后移除所有val≤mid(L)的局部极值,剩余极值点数量为m。最后,对提取到m个极值点进行排序,并选择前K个m所对应的视频帧作为关键帧。如果一个视频中总极值点数量m≤K时,保持m个视频帧,并对最后一个视频帧进行复制填充。
[0012][0013]mid(L)=(max(L)+min(L))/2
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0014]进一步地,步骤3中所有的实验都是在windows10系统下进行的,其中显卡为NVIDIA GTX3060Ti 8G,所运行软件环境配置为:python3.6,pytorch

1.3.0+torchvision

0.5.0,opencv

python

4.5.0等其他辅助Python库。
[0015]进一步地,步骤4中在三维卷积神经网络中加入了相邻帧时间维度信息的卷积操作,三维卷积的计算公式分别下所示。
[0016][0017]式中:为第i层第j个特征图在位置(x,y)上的输出;m代表参与卷积的特征图;P
i
和Q
i
分别表示三维卷积核的长度和宽度;T
i
为三维卷积核在时间维度上的长度;为当前层卷积核(p,q,t)位置的权值;b
ij
为第i层,第j个卷积核输出特征的偏差;relu表示激活函数。
[0018]使用RGB图像和Depth图像的数据联合输入,设计了一种基于注意力机制的三维卷积神经网络(CBAM

C三维)的动态手势识别算法。本方法提出的CBAM

C三维算法是在传统C三维网络结构进行优化。在卷积层(三维Conv)中添加BN层和Relu层,卷积层的数字代表卷
积核的个数,全连接层和最大池化层后衔接CBAM网络对特征进行优化。通过这种融合网络既可以减少输入信息的传输损失,又能够自动学习得到图像中包含重要的时空信息,然后根据信息的重要程度对特征进行筛选,从而实现特征权重的自适应校准,通过添加CBAM注意力机制,可以帮助网络更好的学本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种三维卷积神经网络的动态手势识别方法,其特征在于,所述方法包括如下步骤:步骤1:动态手势样本采集,采用EgoGesture手势数据集中50个动态手势视频片段进行实验;EgoGesture手势数据集包含50个不同主题的2,081个RGB

D视频,24,161个手势样本和2,953,224帧;每个视频样本都由Intel RealSense SR300相机拍摄,数据格式为RDB

D,每帧视频以640
×
480像素的分辨率和30fps录制;其中有33种静态和50种动态手势,为满足本方法训练测试要求,需要对数据进行动作区域切分提取操作,将每个动作依据发生时间区间和类别进行提取,获得50*300*2个包含深度和彩色的动态手势片段;对于双模态的数据库样本,分别随机将其中60%作为训练集,20%作为验证集,20%作为测试集;步骤2:图像预处理,输入采用的是16帧长度的视频,对数据进行预处理,使得数据长度符合神经网络的输入要求;步骤3:搭建实验平台;步骤4:三维卷积神经网络设计;步骤5:模型训练;将50类动态手势的训练集和测试集输入模型进行训练,使用带动量的小批量随机梯度下降算法对三维卷积神经网络进行优化,其中训练步数为101步,批量大小为16,初始学习率为0.01,学习率衰减因子为每3000次迭代衰减0.1,在训练模型时,每隔20步对模型进行一次验证调整,保证模型的准确率和泛化性;步骤6:实验与结果;将50种动态手势的验证集按模型正向传播方法进行准确度测试,得到各类动态手势识别精度。2.如权利要求1所述的一种三维卷积神经网络的动态手势识别方法,其特征在于,步骤2具体为:首先利用RGB

D图像对手势区域进行分割提取,获得去除背景的手部图像,然后利用相邻图像像素标准差算法对图像序列中相邻图像帧差进行计算,然后对帧差大小进行排序,完成关键帧提取;在帧差值计算中,以帧间差分标准差L
n
为关键帧的评价标准;预设关键帧的数量K,计算第n帧图像灰度值变化的标准差;设输入视频序列的连续帧图像分别为f
n
,f
n+1
,图像上像素点为(x,y),该点在两帧图像上所对应灰度值分别为f
n
(x,y),f
n+1
(x,y),根据公式1计算帧间距离,表示第n张图像第i个像素点的灰度值;然后,计算帧差的最大值和最小值,并根据公式2计算出中间值mid(L);然后移除所有val≤mid(L)的局部极值,剩余极值点数量为m;最后,对提取到m个极值点进行排序,并选择前...

【专利技术属性】
技术研发人员:李公法吴雄江都陶波孙瑛孔建益蒋国璋童锡良徐曼曼云俊童刘颖刘鑫赵国军
申请(专利权)人:武汉科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1