当前位置: 首页 > 专利查询>中南大学专利>正文

一种基于多尺度卷积神经网络的静态手势识别方法技术

技术编号:20118732 阅读:16 留言:0更新日期:2019-01-16 12:14
首次提出一种多尺度的卷积神经网络的静态手势识别方法,本发明专利技术基于深度学习的Caffe框架进行优化设计,并进用图像处理的技术原理对静态手势图片进行识别。首先对于简单背景下和复杂背景下的静态手势图片数据进行采集与预处理,数据分为训练数据与测试数据;搭建实验测试环境的搭建后进行基于多尺度的卷积神经网络的设计,即:确定神经网络层数,选择合适的尺度特征等;把训练数据放入此网络结构中进行学习后输入测试数据样本进行测试,得出识别精度。此发明专利技术能够利用卷积层自动学习手势特征,克服了人工提取特征的弊端以及常见卷积神经网络提取特征不够精细全面及稳定性欠佳等缺点,相比之下识别精度更高,训练时间相当;且此方法灵活性强,适用性广。

A Static Gesture Recognition Method Based on Multiscale Convolutional Neural Network

A static gesture recognition method based on multi-scale convolutional neural network is proposed for the first time. The method is optimized based on the Caffe framework of deep learning, and the static gesture image is recognized by the technical principle of image processing. Firstly, the static gesture image data in simple and complex background are collected and preprocessed, and the data are divided into training data and testing data. After setting up the experimental and testing environment, the convolution neural network based on multi-scale is designed, that is, to determine the layers of the neural network, select the appropriate scale features, and put the training data into the network structure for learning. Then the test data samples are input to test, and the recognition accuracy is obtained. The invention can use convolution layer to automatically learn gesture features, overcome the shortcomings of manual feature extraction and common convolution neural network feature extraction is not precise and comprehensive, and the stability is not good. Compared with this method, the recognition accuracy is higher and the training time is comparable; moreover, this method has strong flexibility and wide applicability.

【技术实现步骤摘要】
一种基于多尺度卷积神经网络的静态手势识别方法
本专利技术属于运用深度学习进行图像处理的
,涉及一种多尺度卷积神经网络的静态手势识别方法。
技术介绍
随着计算机技术、通讯技术、硬件设备等的飞速发展,人机交互已经在生活中越来越频繁,人类非语言沟通(手势,身体姿势和面部表情的沟通)占人类所有沟通的三分之二。并且手势具有自然、直观、易学等优点,成为了研究的热点。手势识别技术依据硬件设备分类,主要可以分为基于数据手套的手势识别技术和基于摄像头的手势识别技术。基于数据手套的手势识别技术具有数据精确,识别率高,抗干扰性能好等优点,但存在设备昂贵、识别过程中必须佩戴数据手套等缺点。基于摄像头的手势识别(ArtificialIntelligenceReview,2015,43(1):1-54.),运用计算机视觉技术,无需佩戴昂贵的设备,人机交互过程更加自然,目前该技术已经成为手势识别的主流技术。但该技术仍存在识别率较低,受外界环境影响大等缺点,所以还需要不断地研究和改善。传统的基于图像的静态手势识别技术需要人工提取手势特征进行识别,容易受到环境影响,特征的设计和选择对实验结果影响非常大,YiWang等提出了一种RGB-D深度信息的静态手势识别方法(TransTech期刊,2014:248-254.),识别精度较高,但对于人工提取特征的依赖性高;基于随着深度学习发展迅速,并且在机器视觉,自然语言理解等上取得了很好的成效。现有的AlexNet、GoogLeNet等深度学习算法已经在图像分类上取得了很好的成果,具有良好的应用前景。但是目前采用深度学习算法的手势识别技术研究相对比较少,常见的深度学习网络如AlexNet,CaffeNet等网络结构只利用了最后提取的高层特征进行图像的分类识别,这导致往往很难区分需要精细特征才能判断的对象,比如区分汽车的型号,动物的物种等。吴杰(吴杰.基于深度学习的手势识别研究[D].电子科技大学,2015.)在LeNet-5卷积神经网络基础上设计了基于深度卷积神经网络的静态手势识别方法,此方法不用人工提取特征,网络通过训练自动学习特征,但特征提取不够精细、精度不够高,在静态手势识别中采用常见的单一特征卷积神经网络很难取得很好的识别效果。SongfanYang等人提出了一种基于多尺度特征的卷积神经网络用于图像分类识别技术。根据生理学家的对哺乳动物视觉系统的研究(ProceedingsoftheIEEEInternationalConferenceonComputerVision.2015:1215-1223.),对于图像表示应该从不同分辨率来进行描述。本专利技术借鉴SongfanYang等人提出的基于多尺度特征的卷积神经网络,通过提取不同尺度,更加准确的表征了图像,使得卷积神经网的识别率得到提升。传统的基于视觉的手势识别方法,大都是通过人工提取手势特征进行识别,容易受到环境影响,特征的设计和选择对实验结果影响非常大,所以手势识别模型设计难度非常大;基于深度卷积神经网络这类的静态手势识别方法,特征提取不够精细、精度不够高;本专利技术首次提出基于多尺度的卷积神经网络的手势识别方法,利用卷积层自动学习手势特征,克服了人工提取特征的弊端的同时又更加准确的表示了图像。此种静态手势识别方法尚未见相关文献报道。
技术实现思路
本专利技术要解决的问题是:现有基于图像处理的手势识别技术存在不足,如受外界环境影响大、人工提取手势特征繁琐、提取特征不够精细及稳定性欠佳等。因此需要一种无须人工干预、操作简单且精度稳定性良好的静态手势识别方法。本专利技术的技术方案为:首先对于简单背景下和复杂背景下的静态手势图片数据进行采集与预处理,数据分为训练数据与测试数据;在获得了数据之后进行实验测试环境的搭建,分为硬件与软件的搭建,硬件环境是采用Nvidia的GTX1060显卡和Intel的6代i7处理器,软件环境采用的Ubuntu16.04系统和伯克利视觉和学习中心(BVLC)开发的Caffe框架;其次进行基于多尺度的卷积神经网络的设计,即:确定神经网络层数,选择合适的尺度特征等;然后把经过标记的训练数据放入此网络结构中进行学习;最后输入测试数据样本进行测试,得出最后的静态手势识别精度;具体过程如下:步骤1:手势样本采集,本方法采用SebastienMarcel静态手势数据集并进行了扩充;该静态手势集定义了复杂背景和简单背景下的6个手势,但数据量较小,不符合深度学习的要求,故需自行采集手势数据进行扩充;该静态手势集定义得6个手势具体如图2所示,第一行编号1-6为简单背景下的六种手势,第二行编号1-6为对应复杂背景下的六种手势;手势数据样本的采集也可自行定义与采集;步骤2:图像预处理,为了更好使用卷积神经网络进行手势识别,统一将数据图片缩放为固定尺寸;为了减少计算量与运行时间,还需将图片进行灰度化处理;步骤3:搭建测试实验环境,在拥有了数据的基础上,硬件环境是采用Nvidia的GTX1060显卡和Intel的6代i7处理器,GTX1060显卡具有6.1的算力、6G显存容量,能够为深度卷积神经网络提供强大的计算能力;软件环境采用的Ubuntu16.04系统和伯克利视觉和学习中心(BVLC)开发的Caffe框架;Ubuntu16.04是基于Debian发行版和GNOME桌面环境开发的一款Linux操作系统,具有友好的交互界面和良好的稳定性;Caffe框架是目前最流行的深度学习框架,Caffe框架具有灵活的框架结构与良好的性能;步骤4:多尺度卷积神经网络的设计;卷积神经网络主要包括卷积层、池化层、全连接层、输出层;常见的卷积神经网络的结构如图3所示,Conv表示卷积层,Pooling表示池化层,FC表示全连接层;卷积层:卷积神经网络与普通神经网络最大的不同在于卷积神经网络拥有卷积层,能够直接对输入图片进行图像特征提取;在一个卷积层中通常有多个卷积核,每一个卷积核对应输出一张特征图;池化层:池化层是对卷积层输出的特征图进行下采样计算,但仍然保留图中最重要的信息;池化的方法有:最大值池化,平均值池化;池化层主要有以下几个作用:1.减少特征图的维度,减少网络对能存的消耗;2.减少神经网络中的参数数量,减少计算量;3.减少图像中平移,失真等的影响;全连层:全连接层相当于传统的多层感知器;在全连接层中,每个神经元都与前一层的每个神经元相连;输入图像经过多层的卷积、池化等操作,再与全连接层相连时已经呈现出高层特征,全连接层使用这些高层特征进行图像分类;多尺度在机器视觉中是一个比较经典的概念,但多尺度的概念在卷积神经网络中还很少运用;图4就是SongfanYang提出的多尺度神经网络结构示意图,Conv表示卷积层,ReLU表示激活层,Max-Pool表示最大池化层,Avg-Pool表示平均池化层,FC表示全连接层,Softmax表示Softmax层;SongfanYang提出的多尺度深度卷积神经网络结构是将每一个激活层(ReLU层)后输出的特征图分两路输出,一路输出沿着正常的传播方向输出;一路直接输出,经过均值池化后接入全连接层;最后将各个全连接层输出的特征向量进行特征融合,输入Softmax层进行分类识别;通过多层的特征提取,多尺度卷积神经网络能够利用低层本文档来自技高网
...

【技术保护点】
1.一种基于多尺度卷积神经网络的静态手势识别方法,其特征在于,包括:基于图像处理与深度学习结合的方法,设计出一种基于多尺度卷积神经网络的静态手势识别方法;通过多层的特征提取,多尺度卷积神经网络利用低层、中层和高层图像特征进行图像分类识别,使得图像的分类识别能够更加精细化,计算量不大,优于单尺度卷积神经网络。

【技术特征摘要】
1.一种基于多尺度卷积神经网络的静态手势识别方法,其特征在于,包括:基于图像处理与深度学习结合的方法,设计出一种基于多尺度卷积神经网络的静态手势识别方法;通过多层的特征提取,多尺度卷积神经网络利用低层、中层和高层图像特征进行图像分类识别,使得图像的分类识别能够更加精细化,计算量不大,优于单尺度卷积神经网络。2.根据权利要求1所述的方法,其特征在于,所述静态手势识别方法的方案步骤包括:1)对于简单背景下和复杂背景下的静态手势图片数据进行采集与预处理,数据分为训练数据与测试数据;2)在获得了数据之后进行实验测试环境的搭建,分为硬件与软件的搭建;3)其次进行基于多尺度的卷积神经网络的设计,即:确定神经网络层数,选择合适的尺度特征,避免过拟合;4)然后把经过标记的训练数据放入此网络结构中进行学习;5)最后输入测试数据样本进行测试;6)得出最后的静态手势识别精度。3.根据权利要求2所述的方法,其特征在于,所述手势样本采集包括:采用SebastienMarcel静态手势数据集并进行了扩充;该静态手势集定义了复杂背景和简单背景下的6个手势。4.根据权利要求2所述的方法,其特征在于,所述图像预处理包括:为了更好使用卷积神经网络进行手势识别,统一将数据图片缩放为固定尺寸;为了减少计算量与运行时间,需将图片进行灰度化处理。5.根据权利要求2所述的方法,其特征在于,所述测试实验环境的搭建包括:硬件环境是采用Nvidia的GTX1060显卡和Intel的6代i7处理器,软件环境采用的Ubuntu16.04系统和伯克利视觉和学习中心(BVLC)开发的Caffe框架;Caffe框架具有灵活的框架结构与良好的性能。6.根据权利要求2所述的方法,其特征在于,所述多尺度卷积神经网络的设计包括:1)基于卷积层:卷积神经网络与普通神经网络最大的不同在于卷积神经网络拥有卷积层,能够直接对输入图片进行图像特征提取;在一个卷积层中通常有多个卷积核,每一个卷积核对应输出一张特征图;2)基于池化层:池化层是对卷积层输出的特征图进行下采样计算,但仍然保留图中最重要的信息;池化的方法有:最大值池化,平均值池化;池化可减少特征图的维度、网络对能存的消耗、神经网络中的参数数量、计算量;图像中平移、失真等影响;3)基于全连层:全连接层相当于传统的多层感知器;在全连接层中,每个神经元都与前一层的每个神经元相连;输入图像经过多层的卷积、池化操作,再与全连接层相连时已经呈现出高层特征,全连接层使用这些高层特征进行图像分类;4)基于多尺度:多尺度在机器视觉中是一个比较经典的概念,通过多层的特征提取,多尺度卷积神经网络能够利用低层、中层和高层图像特征进行图像分类识别,使得图像的分类识别能够更加精细化,而且没有给神经网络增加很大的计算量;此网络结构的设计主要有三个难点,第一、神经网络层数的确定;第二、尺度特征的选择;第三、如何避免过拟合。7.根据权利要求6所述的方法,其特征在于,所述多尺度卷积神经网络的设计难点的解决包括:1)在神经网络设计中,设计的神经网络层数太少,会导致神经网络性能不能满足要求,识别效果不好;选择的层数过多,很容易出现过拟合现象,训练时间很长,对实验设备的要求也跟高;参考现有的神经网络模型并通过实验对比,选取了最适合手势识别的神经网络模型;对CaffeNet、VGG_CNN_F、VGG_CNN_M、VGG_CNN_S深度卷积神经网络进行了测试之后,以CaffeNet网络模型为基础设计了多尺度网络模型;2)尺度特征的选取对于实验结果影响很大,每一个激活层输出的特征都叠加到一起很容易出现过拟合现象,由于层数的增加,会占用很大的运行内存;选的尺度特征过少,并不能达到预期的实验效果;对尺度特征的选择是基于贪心算法的思想,通过实验对比得出;3)多尺度卷积神经网络为了避免过拟合,将代价函数正则化;代价函数正则化是在代价函数中加入一个额外的正则化项;加入正则化项的代价函数变为:C代表新代价函数,C0代表原代价函数,λ为参数,ω权重;新的代价函数对权值求偏导可以知:对于权值的学习变为:新的权值更新规则出现了1-ηλ,其中η是学习率,ηλ称为权值衰减率,通过调节λ的大小,改变整体的权值大小;当λ比较大时,训练好的模型权值比较小,比较小的权值对训练数据中的噪声不敏感,能...

【专利技术属性】
技术研发人员:谢斌宋迪喻仲斌
申请(专利权)人:中南大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1