A static gesture recognition method based on multi-scale convolutional neural network is proposed for the first time. The method is optimized based on the Caffe framework of deep learning, and the static gesture image is recognized by the technical principle of image processing. Firstly, the static gesture image data in simple and complex background are collected and preprocessed, and the data are divided into training data and testing data. After setting up the experimental and testing environment, the convolution neural network based on multi-scale is designed, that is, to determine the layers of the neural network, select the appropriate scale features, and put the training data into the network structure for learning. Then the test data samples are input to test, and the recognition accuracy is obtained. The invention can use convolution layer to automatically learn gesture features, overcome the shortcomings of manual feature extraction and common convolution neural network feature extraction is not precise and comprehensive, and the stability is not good. Compared with this method, the recognition accuracy is higher and the training time is comparable; moreover, this method has strong flexibility and wide applicability.
【技术实现步骤摘要】
一种基于多尺度卷积神经网络的静态手势识别方法
本专利技术属于运用深度学习进行图像处理的
,涉及一种多尺度卷积神经网络的静态手势识别方法。
技术介绍
随着计算机技术、通讯技术、硬件设备等的飞速发展,人机交互已经在生活中越来越频繁,人类非语言沟通(手势,身体姿势和面部表情的沟通)占人类所有沟通的三分之二。并且手势具有自然、直观、易学等优点,成为了研究的热点。手势识别技术依据硬件设备分类,主要可以分为基于数据手套的手势识别技术和基于摄像头的手势识别技术。基于数据手套的手势识别技术具有数据精确,识别率高,抗干扰性能好等优点,但存在设备昂贵、识别过程中必须佩戴数据手套等缺点。基于摄像头的手势识别(ArtificialIntelligenceReview,2015,43(1):1-54.),运用计算机视觉技术,无需佩戴昂贵的设备,人机交互过程更加自然,目前该技术已经成为手势识别的主流技术。但该技术仍存在识别率较低,受外界环境影响大等缺点,所以还需要不断地研究和改善。传统的基于图像的静态手势识别技术需要人工提取手势特征进行识别,容易受到环境影响,特征的设计和选择对实验结果影响非常大,YiWang等提出了一种RGB-D深度信息的静态手势识别方法(TransTech期刊,2014:248-254.),识别精度较高,但对于人工提取特征的依赖性高;基于随着深度学习发展迅速,并且在机器视觉,自然语言理解等上取得了很好的成效。现有的AlexNet、GoogLeNet等深度学习算法已经在图像分类上取得了很好的成果,具有良好的应用前景。但是目前采用深度学习算法的手势识别技术研究相 ...
【技术保护点】
1.一种基于多尺度卷积神经网络的静态手势识别方法,其特征在于,包括:基于图像处理与深度学习结合的方法,设计出一种基于多尺度卷积神经网络的静态手势识别方法;通过多层的特征提取,多尺度卷积神经网络利用低层、中层和高层图像特征进行图像分类识别,使得图像的分类识别能够更加精细化,计算量不大,优于单尺度卷积神经网络。
【技术特征摘要】
1.一种基于多尺度卷积神经网络的静态手势识别方法,其特征在于,包括:基于图像处理与深度学习结合的方法,设计出一种基于多尺度卷积神经网络的静态手势识别方法;通过多层的特征提取,多尺度卷积神经网络利用低层、中层和高层图像特征进行图像分类识别,使得图像的分类识别能够更加精细化,计算量不大,优于单尺度卷积神经网络。2.根据权利要求1所述的方法,其特征在于,所述静态手势识别方法的方案步骤包括:1)对于简单背景下和复杂背景下的静态手势图片数据进行采集与预处理,数据分为训练数据与测试数据;2)在获得了数据之后进行实验测试环境的搭建,分为硬件与软件的搭建;3)其次进行基于多尺度的卷积神经网络的设计,即:确定神经网络层数,选择合适的尺度特征,避免过拟合;4)然后把经过标记的训练数据放入此网络结构中进行学习;5)最后输入测试数据样本进行测试;6)得出最后的静态手势识别精度。3.根据权利要求2所述的方法,其特征在于,所述手势样本采集包括:采用SebastienMarcel静态手势数据集并进行了扩充;该静态手势集定义了复杂背景和简单背景下的6个手势。4.根据权利要求2所述的方法,其特征在于,所述图像预处理包括:为了更好使用卷积神经网络进行手势识别,统一将数据图片缩放为固定尺寸;为了减少计算量与运行时间,需将图片进行灰度化处理。5.根据权利要求2所述的方法,其特征在于,所述测试实验环境的搭建包括:硬件环境是采用Nvidia的GTX1060显卡和Intel的6代i7处理器,软件环境采用的Ubuntu16.04系统和伯克利视觉和学习中心(BVLC)开发的Caffe框架;Caffe框架具有灵活的框架结构与良好的性能。6.根据权利要求2所述的方法,其特征在于,所述多尺度卷积神经网络的设计包括:1)基于卷积层:卷积神经网络与普通神经网络最大的不同在于卷积神经网络拥有卷积层,能够直接对输入图片进行图像特征提取;在一个卷积层中通常有多个卷积核,每一个卷积核对应输出一张特征图;2)基于池化层:池化层是对卷积层输出的特征图进行下采样计算,但仍然保留图中最重要的信息;池化的方法有:最大值池化,平均值池化;池化可减少特征图的维度、网络对能存的消耗、神经网络中的参数数量、计算量;图像中平移、失真等影响;3)基于全连层:全连接层相当于传统的多层感知器;在全连接层中,每个神经元都与前一层的每个神经元相连;输入图像经过多层的卷积、池化操作,再与全连接层相连时已经呈现出高层特征,全连接层使用这些高层特征进行图像分类;4)基于多尺度:多尺度在机器视觉中是一个比较经典的概念,通过多层的特征提取,多尺度卷积神经网络能够利用低层、中层和高层图像特征进行图像分类识别,使得图像的分类识别能够更加精细化,而且没有给神经网络增加很大的计算量;此网络结构的设计主要有三个难点,第一、神经网络层数的确定;第二、尺度特征的选择;第三、如何避免过拟合。7.根据权利要求6所述的方法,其特征在于,所述多尺度卷积神经网络的设计难点的解决包括:1)在神经网络设计中,设计的神经网络层数太少,会导致神经网络性能不能满足要求,识别效果不好;选择的层数过多,很容易出现过拟合现象,训练时间很长,对实验设备的要求也跟高;参考现有的神经网络模型并通过实验对比,选取了最适合手势识别的神经网络模型;对CaffeNet、VGG_CNN_F、VGG_CNN_M、VGG_CNN_S深度卷积神经网络进行了测试之后,以CaffeNet网络模型为基础设计了多尺度网络模型;2)尺度特征的选取对于实验结果影响很大,每一个激活层输出的特征都叠加到一起很容易出现过拟合现象,由于层数的增加,会占用很大的运行内存;选的尺度特征过少,并不能达到预期的实验效果;对尺度特征的选择是基于贪心算法的思想,通过实验对比得出;3)多尺度卷积神经网络为了避免过拟合,将代价函数正则化;代价函数正则化是在代价函数中加入一个额外的正则化项;加入正则化项的代价函数变为:C代表新代价函数,C0代表原代价函数,λ为参数,ω权重;新的代价函数对权值求偏导可以知:对于权值的学习变为:新的权值更新规则出现了1-ηλ,其中η是学习率,ηλ称为权值衰减率,通过调节λ的大小,改变整体的权值大小;当λ比较大时,训练好的模型权值比较小,比较小的权值对训练数据中的噪声不敏感,能...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。