基于深度学习的手语识别方法技术

技术编号:12627554 阅读:89 留言:0更新日期:2016-01-01 03:09
本发明专利技术公开了基于深度学习的手语识别方法。其步骤为:(1)划分数据库样本集;(2)采集图像块,(3)白化数据;(4)训练稀疏自编码网络;(5)获得卷积特征图;(6)获得池化特征图;(7)训练分类器;(8)测试分类结果。本发明专利技术用反向传导算法,训练稀疏自编码网络,使得本发明专利技术在处理复杂背景数据时提高了识别率,本发明专利技术选取稀疏自编码网络的权值作为卷积核,通过卷积,获得卷积特征图,将有监督学习和无监督学习结合起来,减少了手工标注标签的人力和物力,本发明专利技术采用最大池化方法,获得池化特征图,减小特征维度,减小了手语识别任务的复杂性。

【技术实现步骤摘要】
基于深度学习的手语识别方法
本专利技术属于图像处理
,更进一步涉及一种模式识别
中的一种基于深度学习的手语识别方法。本专利技术可用于根据手势的变化模拟音节构成的人体手语识别和人与计算机之间的手语信息交换。
技术介绍
人机交互技术的研究是计算机技术研究领域的重要组成部分。当人与人进行面对面的通讯时,包括口语及书面语等自然语言,也包括手语、表情、体势及口型等人体语言传递信息,因而研究人体语言的感知模型及其与自然语言的信息融合,对于提高计算机自然语言理解水平和加强人机信息交换的可实用性有重要意义。手语识别作为人体语言理解的一部分,有着非常重要的作用。一方面,它是虚拟现实人机交互的主要手段;另一方面它又是聋哑人利用计算机与正常人交流的辅助工具。每个手语是由一个手势序列组成,而每个手势是由手形变化序列组成。手语识别的主要任务是根据提取的待识别手语的特征,然后用分类器做分类,确定待识别手语的类别。根据手语输入介质的不同,手语识别系统可分为两种:基于摄象机(视觉)的手语识别系统和基于设备输入(如数据手套、铁笔、鼠标、位置跟踪器等)的手语识别系统。目前,手语识别方法主要有基于模板匹配,神经网络,HMM,DTW等方法。由上述方法提取的特征可以用支持向量机等分类器进行识别,但这些方法的不足之处是提取的特征比较低级,提取特征受到复杂背景的影响很大,实现复杂,从而导致该方法在处理大量复杂背景数据时,因鲁棒性不强降低了手语识别的精度。VanDenBerg等人在文献“CombiningRGBandToFCamerasforReal-time3DHandGestureInteraction”(in:ApplicationsofComputerVision(WACV),2011IEEEWorkshopon,IEEE,2011,pp.66-72.)中提出了一种利用彩色图和深度图进行手语识别的方法。该方法首先将手语图片的彩色图片和深度图片进行归一化和分割处理,然后用平均邻域边界最大化方法对数据进行降维,最后采用最近邻分类算法实现手语分类。该方法存在的不足之处是,图片数据背景要求比较单一,手语类别之间的差异性比较大,在处理复杂数据背景和复杂手语识别任务时精度比较低,在分类过程中单独采用有监督的方式,增加了手工标注标签的人力和物力。广东中大讯通软件科技有限公司申请的专利“一种基于中值滤波和Hu矩向量的手语识别方法”(专利申请号:201110259106,公开号:CN102289666A)公开了一种基于中值滤波和Hu矩向量的手语识别方法。该方法首先对获取到的彩色图像进行归一化处理和中值滤波处理,然后提取处理后的手语图像的矩不变量得到匹配图像的特征向量,最后计算待匹配图像与手语标准图像的特征向量之间的欧氏距离从而识别手语,提高了手语识别的正确率。该方法存在的不足之处是,计算待测图像与标准图像特征向量之间的欧式距离实现分类的过程运算量太大,计算效率太低,不适用于大规模数据的处理。
技术实现思路
本专利技术的目的在于克服上述已有技术的不足,提出了一种基于深度学习的手语识别方法。本专利技术可以在处理复杂数据背景和复杂手语识别任务的情况下,实现手语识别,同时,本专利技术的计算效率高,可以用于大规模数据处理。本专利技术实现的具体步骤如下:(1)划分数据库样本集;(1a)提取手语图像数据集中的手语图像,将所提取的手语图像调整成32×32像素的手语图像;(1b)将调整后的所有手语图像均分为两部分,分别作为手语图像的训练样本和测试样本;(2)采集图像块:对训练样本的每一张手语图像随机采集10张图像块;(3)白化数据:对每一张采集的图像块进行白化处理,得到白化后的图像块;(4)训练稀疏自编码网络:(4a)将白化后的图像块作为稀疏自编码网络的输入矩阵和目标矩阵;(4b)采用正态分布函数,随机初始化稀疏自编码网络的权值和偏置;(4c)采用反向传导算法,更新稀疏自编码网络权值和偏置,得到稀疏自编码网络的权值;(5)获得卷积特征图;(5a)将训练样本和测试样本作为卷积的输入矩阵;(5b)按照稀疏自编码网络的权值排列顺序提取11×11大小的卷积核;(5c)采用卷积公式,对输入矩阵进行卷积,得到输入样本和测试样本的卷积特征图;(6)获得池化特征图;采用最大池化方法,对训练样本和测试样本的卷积特征图进行池化处理,得到训练样本和测试样本的池化特征图;(7)训练分类器;用训练样本的池化特征图训练线性支持向量机分类器得到分类模型;(8)测试分类效果;用分类模型对测试样本的池化特征图进行分类,得到测试样本的分类结果。与现有技术相比本专利技术具有以下优点:第一,由于本专利技术采用反向传导算法,更新稀疏自编码网络权值和偏置,得到稀疏自编码网络的权值,充分利用了稀疏自编码网络的自我学习能力,得到抽象的分类特征,克服了现有技术在处理复杂数据背景和复杂手语识别任务时精度比较低的问题,使得本专利技术在处理手语类别之间差异性比较大的数据时提高了识别率。第二,由于本专利技术按照稀疏自编码网络的权值排列顺序提取11×11大小的卷积核,通过卷积公式,获得训练样本和测试样本的卷积特征图,将有监督学习和无监督学习结合起来,克服了现有技术在分类过程中单独采用有监督的方式,增加了手工标注标签的人力和物力的问题,使得本专利技术处理数据的范围更广,节省人力物力。第三,由于本专利技术采用最大池化方法,获得训练样本和测试样本池化特征图,克服了现有技术运算量大,计算效率低,不适用于大规模数据的处理的问题,使得本专利技术在处理大数据手语分类任务时,增加了特征的平移不变性,减小特征维度,减小了手语识别任务的复杂性。附图说明图1是本专利技术实现的流程图;图2是本专利技术手语识别结果的混淆矩阵图。具体实施方式参照图1,对本专利技术做进一步的详细描述:步骤1,划分数据库样本集;;提取手语图像数据集中的手语图像,将所提取的手语图像调整成32×32像素的手语图像,将调整后的所有手语图像均分为两部分,分别作为训练样本和测试样本;步骤2,采集图像块:对训练样本的每一张手语图像随机采集10个图像块;步骤3,白化数据;对每一张采集的图像块进行白化处理,得到白化后的图像块,具体步骤如下:第1步,按照下式,分别计算每个图像块中每一个像素的均值:其中,表示每个图像块中每一个像素的均值,m表示图像块的数目,此处m=600000,xoi表示第i个图像块,i∈[1,m],∈表示属于符号;第2步,用每个图像块减去均值,得到去均值化图像块;第3步,按照下式,计算图像块的奇异矩阵;其中,U表示图像块左奇异向量组成的矩阵,S表示图像块的奇异值元素组成的对角矩阵,V表示图像块的右奇异向量组成的矩阵,svd(·)表示奇异值分解函数,m表示输入图像块的数目,此处m=600000,xg表示第g张去均值化图像块,g∈[1,m],∈表示属于符号;第4步,按照下式,对去均值化图像块进行去相关处理;其中,y表示去相关处理后的图像块,U表示图像块左奇异向量组成的矩阵,S表示图像块的奇异值元素组成的对角矩阵,ε表示规则化参数,ε初始化为0.01,T表示转置操作,x表示去均值化图像块;步骤4,训练稀疏自编码网络:(4a)将白化后的图像块作为稀疏自编码网络的输入矩阵和目标矩阵,稀疏自编码网络共3层,第一层为输入层,第二层为隐藏本文档来自技高网
...

【技术保护点】
一种基于深度学习的手语识别方法,包括如下步骤:(1)划分数据库样本集;(1a)提取手语图像数据集中的手语图像,将所提取的手语图像调整成32×32像素的手语图像;(1b)将调整后的所有手语图像均分为两部分,分别作为手语图像的训练样本和测试样本;(2)采集图像块:对训练样本的每一张手语图像随机采集10张图像块;(3)白化数据:对每一张采集的图像块进行白化处理,得到白化后的图像块;(4)训练稀疏自编码网络:(4a)将白化后的图像块作为稀疏自编码网络的输入矩阵和目标矩阵;(4b)采用正态分布函数,随机初始化稀疏自编码网络的权值和偏置;(4c)采用反向传导算法,更新稀疏自编码网络权值和偏置,得到稀疏自编码网络的权值;(5)获得卷积特征图;(5a)将训练样本和测试样本作为卷积的输入矩阵;(5b)按照稀疏自编码网络的权值排列顺序提取11×11大小的卷积核;(5c)采用卷积公式,对输入矩阵进行卷积,得到输入样本和测试样本的卷积特征图;(6)获得池化特征图;采用最大池化方法,对训练样本和测试样本的卷积特征图进行池化处理,得到训练样本和测试样本的池化特征图;(7)训练分类器;用训练样本的池化特征图训练线性支持向量机分类器得到分类模型;(8)测试分类效果;用分类模型对测试样本的池化特征图进行分类,得到测试样本的分类结果。...

【技术特征摘要】
1.一种基于深度学习的手语识别方法,其特征在于,随机从数据中抽取10张有标签的图像,使用线性支持向量机来作为分类器;该方法的步骤包括如下:(1)划分数据库样本集;(1a)提取手语图像数据集中的手语图像,将所提取的手语图像调整成32×32像素的手语图像;(1b)将调整后的所有手语图像均分为两部分,分别作为手语图像的训练样本和测试样本;(2)采集图像块:对训练样本的每一张手语图像随机采集10张图像块;(3)白化数据:对每一张采集的图像块进行白化处理,得到白化后的图像块;所述的对每一张采集的图像块进行白化处理是按照如下步骤进行的:第1步,按照下式,分别计算每一张采集的图像块中每一个像素的均值:其中,表示每一张采集的图像块中每一个像素的均值,m表示图像块的数目,xoi表示第i个图像块,i∈[1,m],∈表示属于符号;第2步,用每个图像块减去均值,得到去均值化图像块;第3步,按照下式,计算图像块的奇异矩阵;其中,U表示图像块的左奇异向量组成的矩阵,S表示图像块的奇异值元素组成的对角矩阵,V表示图像块的右奇异向量组成的矩阵,svd(·)表示奇异值分解操作,m表示输入图像块的数目,xg表示第g张去均值化图像块,g∈[1,m],∈表示属于符号;第4步,按照下式,对去均值化图像块进行去相关处理;其中,y表示去相关处理后的图像块,U表示图像块左奇异向量组成的矩阵,S表示图像块的奇异值元素组成的对角矩阵,ε表示规则化参数,ε的取值范围为0.01~0.1,T表示转置操作,x表示去均值化图像块;(4)训练稀疏自编码网络:(4a)将白化后的图像块作为稀疏自编码网络的输入矩阵和目标矩阵;(4b)采用正态分布函数,随机初始化稀疏自编码网络的权值和偏置;所述的正态分布函数的均值为0,方差的随机取值范围为0.01~0.1;(4c)采用反向传导算法,更新稀疏自编码网络权值和偏置,得到稀疏自编码网络的权值;(5)获得卷积特征图;(5a)将训练样本和测试样本作为卷积的输入矩阵;(5b)按照稀疏自编码网络的权值排列顺序提取11×11大小的卷积核;(5c)采用卷积公式,对输入矩阵进行卷积,得到输入样本和测试样本的卷积特征图;(6)获得池化特征图;采用最大池化方法,对训练样本和测试样本的卷积特征图进行池化处理,得到训练样本和测试样本的池化特征图;(7)训练分类器;用训练样本的池化特征图训练线性支持向量机分类器得到分类模型;(8)测试分类效果;用分类模型对测试样本的池化特征图进行分类,得到测试样本的分类结果。2.根据权利要求1所述的基于深度学习的手语识别方法,其特征在于:步骤(2)中所述从训练样本的每一张手语图像中随机采集的图像块的大小为10×10像素。3.根据权利要求1所述的基于深度学习的手语识别方法,其特征在于:步骤(4a)中所述的稀疏自编码网络共3层,第一层为输入层,第二层为隐藏层,隐藏层的神经元数目为400个,第三层为输出层。4.根据权利要求1所述的基于深度学习的手语识别方法,其特征在于:步骤(4c)中反向传导算法的具体步骤如下:第1步,按照下式,计算稀疏自编码网络的惩罚因子:其中,η表示稀疏自编码网络的惩罚因子,β表示随机选取的惩罚因子权重,β的取值范围为0.1~0.5,ρ表示随机选取的稀疏性参数,ρ的取值范围为0.01~0.05,log表示以10为底的对数操作,ρj表示稀疏自编码网络隐藏层第j个神经元的平均活跃度,j∈[1,s],∈表示属于符号,s表示稀疏自编码网络隐藏层神经元的数目;第2步,计算每层稀疏自编码网络的输出矩阵:按照下式,计算稀疏自编码网络输出层的输出矩阵:其中,an表示稀疏自编码网络输出层的输出矩阵,n表示稀疏自编码网络的输出层,w表示第t层稀疏自编码网络的权值,t∈[1,N],∈表示属于符号,N表示稀疏自编码网络的层数,X表示稀疏自编码网络的输入矩阵,b表示稀疏自编码网络第t层的偏置,...

【专利技术属性】
技术研发人员:韩红焦李成王伟洪汉梯张鼎李阳阳马文萍王爽
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1