【技术实现步骤摘要】
基于深度学习的手语识别方法
本专利技术属于图像处理
,更进一步涉及一种模式识别
中的一种基于深度学习的手语识别方法。本专利技术可用于根据手势的变化模拟音节构成的人体手语识别和人与计算机之间的手语信息交换。
技术介绍
人机交互技术的研究是计算机技术研究领域的重要组成部分。当人与人进行面对面的通讯时,包括口语及书面语等自然语言,也包括手语、表情、体势及口型等人体语言传递信息,因而研究人体语言的感知模型及其与自然语言的信息融合,对于提高计算机自然语言理解水平和加强人机信息交换的可实用性有重要意义。手语识别作为人体语言理解的一部分,有着非常重要的作用。一方面,它是虚拟现实人机交互的主要手段;另一方面它又是聋哑人利用计算机与正常人交流的辅助工具。每个手语是由一个手势序列组成,而每个手势是由手形变化序列组成。手语识别的主要任务是根据提取的待识别手语的特征,然后用分类器做分类,确定待识别手语的类别。根据手语输入介质的不同,手语识别系统可分为两种:基于摄象机(视觉)的手语识别系统和基于设备输入(如数据手套、铁笔、鼠标、位置跟踪器等)的手语识别系统。目前,手语识别方法主要有基于模板匹配,神经网络,HMM,DTW等方法。由上述方法提取的特征可以用支持向量机等分类器进行识别,但这些方法的不足之处是提取的特征比较低级,提取特征受到复杂背景的影响很大,实现复杂,从而导致该方法在处理大量复杂背景数据时,因鲁棒性不强降低了手语识别的精度。VanDenBerg等人在文献“CombiningRGBandToFCamerasforReal-time3DHandGestureInt ...
【技术保护点】
一种基于深度学习的手语识别方法,包括如下步骤:(1)划分数据库样本集;(1a)提取手语图像数据集中的手语图像,将所提取的手语图像调整成32×32像素的手语图像;(1b)将调整后的所有手语图像均分为两部分,分别作为手语图像的训练样本和测试样本;(2)采集图像块:对训练样本的每一张手语图像随机采集10张图像块;(3)白化数据:对每一张采集的图像块进行白化处理,得到白化后的图像块;(4)训练稀疏自编码网络:(4a)将白化后的图像块作为稀疏自编码网络的输入矩阵和目标矩阵;(4b)采用正态分布函数,随机初始化稀疏自编码网络的权值和偏置;(4c)采用反向传导算法,更新稀疏自编码网络权值和偏置,得到稀疏自编码网络的权值;(5)获得卷积特征图;(5a)将训练样本和测试样本作为卷积的输入矩阵;(5b)按照稀疏自编码网络的权值排列顺序提取11×11大小的卷积核;(5c)采用卷积公式,对输入矩阵进行卷积,得到输入样本和测试样本的卷积特征图;(6)获得池化特征图;采用最大池化方法,对训练样本和测试样本的卷积特征图进行池化处理,得到训练样本和测试样本的池化特征图;(7)训练分类器;用训练样本的池化特征图训练线性 ...
【技术特征摘要】
1.一种基于深度学习的手语识别方法,其特征在于,随机从数据中抽取10张有标签的图像,使用线性支持向量机来作为分类器;该方法的步骤包括如下:(1)划分数据库样本集;(1a)提取手语图像数据集中的手语图像,将所提取的手语图像调整成32×32像素的手语图像;(1b)将调整后的所有手语图像均分为两部分,分别作为手语图像的训练样本和测试样本;(2)采集图像块:对训练样本的每一张手语图像随机采集10张图像块;(3)白化数据:对每一张采集的图像块进行白化处理,得到白化后的图像块;所述的对每一张采集的图像块进行白化处理是按照如下步骤进行的:第1步,按照下式,分别计算每一张采集的图像块中每一个像素的均值:其中,表示每一张采集的图像块中每一个像素的均值,m表示图像块的数目,xoi表示第i个图像块,i∈[1,m],∈表示属于符号;第2步,用每个图像块减去均值,得到去均值化图像块;第3步,按照下式,计算图像块的奇异矩阵;其中,U表示图像块的左奇异向量组成的矩阵,S表示图像块的奇异值元素组成的对角矩阵,V表示图像块的右奇异向量组成的矩阵,svd(·)表示奇异值分解操作,m表示输入图像块的数目,xg表示第g张去均值化图像块,g∈[1,m],∈表示属于符号;第4步,按照下式,对去均值化图像块进行去相关处理;其中,y表示去相关处理后的图像块,U表示图像块左奇异向量组成的矩阵,S表示图像块的奇异值元素组成的对角矩阵,ε表示规则化参数,ε的取值范围为0.01~0.1,T表示转置操作,x表示去均值化图像块;(4)训练稀疏自编码网络:(4a)将白化后的图像块作为稀疏自编码网络的输入矩阵和目标矩阵;(4b)采用正态分布函数,随机初始化稀疏自编码网络的权值和偏置;所述的正态分布函数的均值为0,方差的随机取值范围为0.01~0.1;(4c)采用反向传导算法,更新稀疏自编码网络权值和偏置,得到稀疏自编码网络的权值;(5)获得卷积特征图;(5a)将训练样本和测试样本作为卷积的输入矩阵;(5b)按照稀疏自编码网络的权值排列顺序提取11×11大小的卷积核;(5c)采用卷积公式,对输入矩阵进行卷积,得到输入样本和测试样本的卷积特征图;(6)获得池化特征图;采用最大池化方法,对训练样本和测试样本的卷积特征图进行池化处理,得到训练样本和测试样本的池化特征图;(7)训练分类器;用训练样本的池化特征图训练线性支持向量机分类器得到分类模型;(8)测试分类效果;用分类模型对测试样本的池化特征图进行分类,得到测试样本的分类结果。2.根据权利要求1所述的基于深度学习的手语识别方法,其特征在于:步骤(2)中所述从训练样本的每一张手语图像中随机采集的图像块的大小为10×10像素。3.根据权利要求1所述的基于深度学习的手语识别方法,其特征在于:步骤(4a)中所述的稀疏自编码网络共3层,第一层为输入层,第二层为隐藏层,隐藏层的神经元数目为400个,第三层为输出层。4.根据权利要求1所述的基于深度学习的手语识别方法,其特征在于:步骤(4c)中反向传导算法的具体步骤如下:第1步,按照下式,计算稀疏自编码网络的惩罚因子:其中,η表示稀疏自编码网络的惩罚因子,β表示随机选取的惩罚因子权重,β的取值范围为0.1~0.5,ρ表示随机选取的稀疏性参数,ρ的取值范围为0.01~0.05,log表示以10为底的对数操作,ρj表示稀疏自编码网络隐藏层第j个神经元的平均活跃度,j∈[1,s],∈表示属于符号,s表示稀疏自编码网络隐藏层神经元的数目;第2步,计算每层稀疏自编码网络的输出矩阵:按照下式,计算稀疏自编码网络输出层的输出矩阵:其中,an表示稀疏自编码网络输出层的输出矩阵,n表示稀疏自编码网络的输出层,w表示第t层稀疏自编码网络的权值,t∈[1,N],∈表示属于符号,N表示稀疏自编码网络的层数,X表示稀疏自编码网络的输入矩阵,b表示稀疏自编码网络第t层的偏置,...
【专利技术属性】
技术研发人员:韩红,焦李成,王伟,洪汉梯,张鼎,李阳阳,马文萍,王爽,
申请(专利权)人:西安电子科技大学,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。