【技术实现步骤摘要】
一种基于深度学习的动态手势识别方法
[0001]本专利技术属于利用深度学习方法进行动态手势识别领域,涉及本文提出了一种基于三维卷积神经网络的算法进行动态手势识别。
技术介绍
[0002]手势又分为静态手势和动态手势,静态手势识别只是对一幅图片中的手型做出分类,例如对“OK”这种手势进行分类,在学习特征时只关注手势的空间特征。动态手势识别则是对图像序列组成的手势进行识别,在特征提取时不但要提取空间特征,更要提取时间特征。相较于静态手势识别,动态手势更贴近人的表达习惯、有更丰富的信息表达、更具有现实意义。目前,研究人员已经提出了多种动态手势识别的算法,有动态手势特征提取算法如MEI算法,HOG算法和HOF算法,也有分类算法如隐马尔科夫模型等。而随着深度学习技术的发展,也有很多视频分类算法如C三维,双流卷积网络和LSTM等被应用于动态手势识别,并得到了较高的识别率。在现有基于深度学习的动态手势识别方法中,因为需要对视频空间信息和时序信息进行提取,网络输入信息量较大,导致其参数和计算量都十分庞大,网络结构复杂,实时性不高。如果能对网络输入进行优化筛选,并对改进现有的特征提取方法,就可以实现动态手势识别效果的提高。
技术实现思路
[0003]本专利技术要解决的问题是:现有基于图像处理的手势识别技术存在不足,如受外界环境影响大、人工提取手势特征繁琐、提取特征不够精细及稳定性欠佳等。因此,本专利技术利用卷积神经网络实现手势视频定位分类,并结合动态手势特点,提出了一种三维卷积神经网络的动态手势识别方法。
[0 ...
【技术保护点】
【技术特征摘要】
1.一种三维卷积神经网络的动态手势识别方法,其特征在于,所述方法包括如下步骤:步骤1:动态手势样本采集,采用EgoGesture手势数据集中50个动态手势视频片段进行实验;EgoGesture手势数据集包含50个不同主题的2,081个RGB
‑
D视频,24,161个手势样本和2,953,224帧;每个视频样本都由Intel RealSense SR300相机拍摄,数据格式为RDB
‑
D,每帧视频以640
×
480像素的分辨率和30fps录制;其中有33种静态和50种动态手势,为满足本方法训练测试要求,需要对数据进行动作区域切分提取操作,将每个动作依据发生时间区间和类别进行提取,获得50*300*2个包含深度和彩色的动态手势片段;对于双模态的数据库样本,分别随机将其中60%作为训练集,20%作为验证集,20%作为测试集;步骤2:图像预处理,输入采用的是16帧长度的视频,对数据进行预处理,使得数据长度符合神经网络的输入要求;步骤3:搭建实验平台;步骤4:三维卷积神经网络设计;步骤5:模型训练;将50类动态手势的训练集和测试集输入模型进行训练,使用带动量的小批量随机梯度下降算法对三维卷积神经网络进行优化,其中训练步数为101步,批量大小为16,初始学习率为0.01,学习率衰减因子为每3000次迭代衰减0.1,在训练模型时,每隔20步对模型进行一次验证调整,保证模型的准确率和泛化性;步骤6:实验与结果;将50种动态手势的验证集按模型正向传播方法进行准确度测试,得到各类动态手势识别精度。2.如权利要求1所述的一种三维卷积神经网络的动态手势识别方法,其特征在于,步骤2具体为:首先利用RGB
‑
D图像对手势区域进行分割提取,获得去除背景的手部图像,然后利用相邻图像像素标准差算法对图像序列中相邻图像帧差进行计算,然后对帧差大小进行排序,完成关键帧提取;在帧差值计算中,以帧间差分标准差L
n
为关键帧的评价标准;预设关键帧的数量K,计算第n帧图像灰度值变化的标准差;设输入视频序列的连续帧图像分别为f
n
,f
n+1
,图像上像素点为(x,y),该点在两帧图像上所对应灰度值分别为f
n
(x,y),f
n+1
(x,y),根据公式1计算帧间距离,表示第n张图像第i个像素点的灰度值;然后,计算帧差的最大值和最小值,并根据公式2计算出中间值mid(L);然后移除所有val≤mid(L)的局部极值,剩余极值点数量为m;最后,对提取到m个极值点进行排序,并选择前...
【专利技术属性】
技术研发人员:李公法,吴雄,江都,陶波,孙瑛,孔建益,蒋国璋,童锡良,徐曼曼,云俊童,刘颖,刘鑫,赵国军,
申请(专利权)人:武汉科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。