当前位置: 首页 > 专利查询>中南大学专利>正文

一种基于3D卷积神经网络算法的动态手势识别方法技术

技术编号:21478753 阅读:29 留言:0更新日期:2019-06-29 05:03
首次提出了一种基于3D卷积神经网络的算法进行动态手势识别。基于3D卷积神经网络的动态手势别与传统动态手势识别方法相比,不需要人为提取手势特征,通过3D卷积神经网络,自动提取手势特征;3D卷积神经网络与常见的2D卷积神经网络最大的不同在于3D卷积神经网络采用3D卷积核和3D池化窗口,这样卷积神经网络进行卷积操作不仅可以提取空间特征,而且可以提取时间特征;此发明专利技术能够利用卷积层自动学习手势特征,克服了人工提取特征的弊端以及常见卷积神经网络提取特征不够精细全面及稳定性欠佳等缺点,相比之下识别精度更高,训练时间相当;且此方法灵活性强,适用性广。

【技术实现步骤摘要】
一种基于3D卷积神经网络算法的动态手势识别方法
本专利技术属于运用深度学习进行图像处理的
,涉及本文提出了一种基于3D卷积神经网络的算法进行动态手势识别。
技术介绍
随着计算机技术、通讯技术、硬件设备等的飞速发展,人机交互已经在生活中越来越频繁,人类非语言沟通(手势,身体姿势和面部表情的沟通)占人类所有沟通的三分之二。并且手势具有自然、直观、易学等优点,成为了研究的热点。将手势识别应用人机交互如:智能电视的操控,车载多媒体交互等上时,都需要用到动态手势识别。与静态手势相比,动态手势的识别需要同时结合时间信息和空间信息,这使得动态手势识别难度更大。动态手势识别的过程本质上讲就是识别手在空间中的运动信息。传统的动态手势识别方法依赖于手势特征的选取,大部分动态手势识别是利用手在空间中的运动轨迹作为特征来实现动态手势的识别。下面我们将分析常用的几种传统动态手势识别方法的优劣。隐马尔科夫模型是一种统计模型,创立于20世纪,并在语音识别领域、模式识别领域取得了许多重要的成果。基于隐马尔科夫模型的动态手势识别方法是把手形及运动轨迹作为手势识别的特征进行识别。通过对人手轮廓的跟踪,获得手部形状和多自由度(手心空间坐标(x,y,z)以及欧式位姿(alpha,beta,theta))的手势的运动轨迹,这样就实现了对视频中手势特征的提取。将提取的动态手势特征作为隐马尔科夫模型的观察值序列,并作为训练好的隐马尔科夫模型的输入值,通过前向算法求出最大似然值,然后输出识别的手势。基于隐马尔科夫模型的动态手势识别将每一种手势对应一个隐马尔科夫模型,其优点是对复杂的手势动作识别精度较高,新增手势时容易添加或修改手势库。但是随着手势数量的增多,隐马尔科夫模型越来越复杂,训练难度越来越大。基于压缩时间轴的动态手势识别方法,首先将手从各帧图像中分割出来,然后将这一系列的图像进行归一化处理,形成一张静态的图片。然后通过静态手势识别的方法进行动态手势的识别。这种手势识别的好处是能够很好的识别手型不同的手势,但是由于丢失了很多手势的空间特征,这导致这种手势识别的方法对空间变化复杂的手势识别率很低。动态时间规整算法本质上是一种模板匹配算法。由于在动态手势识别的过程中每一个手势的时间序列长度都不一样,所以在计算测试模板和参考模板的相似性的时候采用动态时间规整算法克服手势时间序列长度不一致的情况。动态时间规整算法将手势运动轨迹作为动态手势特征,通过计算测试样本与参考样本之间的欧式距离实现对动态手势的识别。与基于隐马尔科夫模型的动态手势识别相比动态时间规整算法实现简单,计算量较小,但是基于动态时间规整的手势识别算法对复杂手势识别率较低。随着卷积神经网络的发展,卷积神经网络从最开始的单纯的对图片分类发展出了对视频的处理的能力。本专利技术首次提出基于3D卷积神经网络的算法进行动态手势识别方法,利用卷积层自动学习手势特征,克服了人工提取特征的弊端的同时又更加准确的表示了图像。此种动态手势识别方法尚未见相关文献报道。
技术实现思路
本专利技术要解决的问题是:现有基于图像处理的手势识别技术存在不足,如受外界环境影响大、人工提取手势特征繁琐、提取特征不够精细及稳定性欠佳等。因此本章将从卷积神经网络对视频分类处理上着手,并结合动态手势识别的特点,提出一种双卷积神经网络的动态手势识别方法。本专利技术的技术方案为:首先对于动态数据进行采集与预处理,数据分为训练数据与测试数据;在获得了数据之后进行实验测试环境的搭建,分为硬件与软件的搭建,硬件环境是采用Nvidia的GTX1060显卡和Intel的6代i7处理器,软件环境采用的Ubuntu16.04系统和伯克利视觉和学习中心(BVLC)开发的Caffe框架;其次进行3D神经网络的结构设计;然后把经过标记的训练数据放入此网络结构中进行学习;最后输入测试数据样本进行测试,得出最后的动态识别精度;具体过程如下:步骤1:动态手势样本采集,本方法采用的数据集是VIVA(VisionforIntelligentVehiclesandApplications)数据集;VIVA数据集考虑了与驾驶员,乘员,车辆动力学和车辆周围环境以及交通基础设施相关的参数的感测,分析,建模和预测中的问题;这个数据集包含19个动态手势,2920个动态手势视频片段,包含彩色视频信息和深度信息。VIVA手势数据集是在变化的照明条件下收集的数;。VIVA动态手势集部分数据如图(2)所示;由于数据量不足,采用虚拟样本生成方法是对已有样本集进行几何变换,加入噪声对数据集进行扩充;步骤2:数据预处理,在VIVA手势数据集中,不同的手势视频有不同的长度,本专利技术输入采用的是32帧长度的视频,需要对数据进行预处理,使得数据长度符合神经网络的输入要求;通过使用最近邻域法丢弃或重复帧使得每个手势的视频长度都为32帧;步骤3:搭建测试实验环境,在拥有了数据的基础上,硬件环境是采用Nvidia的GTX1060显卡和Intel的6代i7处理器,GTX1060显卡具有6.1的算力、6G显存容量,能够为深度卷积神经网络提供强大的计算能力;软件环境采用的Ubuntu16.04系统和伯克利视觉和学习中心(BVLC)开发的Caffe框架;Ubuntu16.04是基于Debian发行版和GNOME桌面环境开发的一款Linux操作系统,具有友好的交互界面和良好的稳定性;Caffe框架是目前最流行的深度学习框架,Caffe框架具有灵活的框架结构与良好的性能;步骤4:3D卷积神经网络的设计;2D卷积神经网络作用在单帧图像上输出单张图,因此2D卷积神经网络进行卷积运算之后就丢失输入信号的时间信息;同样,2D池化也和2D卷积一样,也会丢失时间信息;2D卷积神经网络作用在多帧也是输出单张图片,因此在进行第一次卷积之后时间信息也会丢失;只有3D卷积神经网络保留了输入视频中的时间信息;本专利技术采用采用的缓慢融合网络结构,将视频帧分成三份,分别转换成3维矩阵输入到卷积神经网络中进行操作;与早期融合网络结构和晚期融合结构相比,采用缓慢融合网络结构能够充分的提取时空特征,对时空信息的利用率大大提升,最终设计的卷积神经网络结构如图(3)所示,Conv表示卷积层,FC表示全连接层,softmax层的输出结果表示为一个一维向量P,P计算公式如下:j代表第j个输出神经元;z代表softmax层的加权输入;q代表神经元数量;步骤5:对数据样本进行训练,卷积神经网络的训练其实是通过优化卷积神经网络的参数使得代价函数值越来越小;代价函数采用log-likelihood函数:n代表数据集大小,Pi表示分类器的输出值;通过随机梯度下降方法对参数进行更新,并通过Nesterov加速梯度法对随机梯度进行优化;随机梯度下降法在深度学习中得到广泛的运用,与批量梯度下降法相比,随机梯度下降法收敛速度更快,而且不容易陷入局部最小值;但是随机梯度也存在难点,就是学习率的设定,当学习率设置太小,会导致收敛速度太慢;当学习率设置过大容易出现代价函数震荡,甚至发散的情况;通过引入Nesterov加速梯度法对随机梯度下降法进行优化,Nesterov加速梯度法引入一个动量参数vi来使随机梯度加速前进,减少在极小值附近的震荡;参数跟新具体实现如下:w表示参数;vi本文档来自技高网
...

【技术保护点】
1.一种基于3D卷积神经网络的算法进行动态手势识别方法,其特征在于,包括:利用卷积层自动学习手势特征,克服了人工提取特征的弊端的同时又更加准确的表示了图像。

【技术特征摘要】
1.一种基于3D卷积神经网络的算法进行动态手势识别方法,其特征在于,包括:利用卷积层自动学习手势特征,克服了人工提取特征的弊端的同时又更加准确的表示了图像。2.根据权利要求1所述的方法,其特征在于,所述动态手势识别方法的方案步骤包括:1)对于动态手势数据进行采集与预处理,数据分为训练数据与测试数据;2)在获得了数据之后进行实验测试环境的搭建,分为硬件与软件的搭建;3)其次进行基于3D卷积神经网络的设计,即:确定神经网络层数,选择合适的尺度特征,避免过拟合;4)然后把经过标记的训练数据放入此网络结构中进行学习;5)最后输入测试数据样本进行测试;6)得出最后的动态手势识别精度。3.根据权利要求2所述的方法,其特征在于,所述手势样本采集包括:采用VIVA动态手势数据集并进行了扩充;该手势集定义了19个手势。4.根据权利要求2所述的方法,其特征在于,所述图像预处理包括:数据预处理,在VIVA手势数据集中,不同的手势视频有不同的长度,本发明输入采用的是32帧长度的视频,需要对数据进行预处理,使得数据长度符合神经网络的输入要求;通过使用最近邻域法丢弃或重复帧使得每个手势的视频长度都为32帧。5.根据权利要求2所述的方法,其特征在于,所述测试实验环境的搭建包括:硬件环境是采用Nvidia的GTX1060显卡和Intel的6代i7处理器,软件环境采用的Ubuntu16.04系统和伯克利视觉和学习中心(BVLC)开发的Caffe框架;Caffe框架具有灵活的框架结构与良好的性能。6.根据权利要求2所述的方法,其特征在于,所述3D卷积神经网络的设计包括:1)基于卷积层:卷积神经网络与普通神经网络最大的不同在于卷积神...

【专利技术属性】
技术研发人员:谢斌宋迪喻仲斌
申请(专利权)人:中南大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1