基于深度置信网络和多模式特征的手语识别方法技术

技术编号：21116384 阅读：52 留言：0更新日期：2019-05-16 09:10

本发明专利技术提供一种基于深度置信网络(Deep Belief Network,DBN)和多模式特征的手语识别方法，涉及图像处理技术和机器学习领域。该方法包括：输入手语图像或视频，对手语图像进行预处理，提取方向梯度直方图(Histogram of Oriented Gradient,HOG)、局部二值模式(Local Binary Patterns,LBP)和Zernike矩等特征作为特征参数，利用深度置信网络进行训练和识别。本发明专利技术能实时识别图像中的手语信息，具有较高的识别准确率。

Sign Language Recognition Based on Depth Confidence Network and Multi-pattern Features

全部详细技术资料下载

【技术实现步骤摘要】
基于深度置信网络和多模式特征的手语识别方法
本专利技术涉及一种基于深度置信网络(DeepBeliefNetwork，DBN)和多模式特征的手语识别方法，属于图像处理技术和机器学习领域。技术背景手语指以约定俗成的手势变化(或辅以表情)模拟形象或者音节以构成的一定意义的词语，它是听力障碍、无法言语的人(即聋哑人)互相交际和交流思想的一种手段，是“有声语言的重要辅助工具”，而对于听力障碍的人来说，它则是主要的交流工具。手语识别的目的是通过计算机提供一种有效且准确的机制，将手语翻译成文本或语音使得聋人和听力正常人之间的交流变得更加方便、快捷。我国目前有两千多万聋人，对手语识别的研究，无疑将直接造福于这个群体，为其提供一种更加自然、更加方便快捷地与健听人交流的途径，以便他们更好地融入社会，这也必将对构建多元关爱的和谐社会产生积极影响。对于经典的模式识别方法，主要步骤可以分为预处理、特征提取、特征选择(降维或融合等)、训练分类器(或分类)等。通常来说，由于单个特征并不能全面的反映图像信息，因此对每个特征分别进行分类器处理后，得到的信息并不一定准确。因此，将来源不同的特征信息整合到一起，去除冗余得到的融合信息将利于后续的分析处理与识别。从统计结果来看，多融合特征方法进行图像分类比单个特征效果好。深度学习提出了一种让计算机自动学习模式特征的方法，并将特征学习融入到了建立模型的过程中，从而减少了人为设计特征造成的不完备性。深度信念网络是深度学习里面的基本模型之一，也是机器学习的一个分支，通过生成模型学习联合概率密度分布，可以从统计的角度表示数据的分布情况，能够反映同类数...

【技术保护点】
1.基于深度置信网络和多模式特征的手语识别方法，其步骤如下：步骤1：建立手语图像样本库；该图像样本库包括通用样本库，还包括自行采集的手语样本；样本库中存储的图像均为bmp,png,jpg格式；步骤2：对图像进行预处理；对图像样本进行预处理，将每一幅图像转换为灰度图像，以便于后续处理；采用基于灰度直方图的快速分割算法，从手语图像中分离手语区域；将彩色RGB图像转换为灰度图像时，采用下式计算灰度值：Gray＝0.299*R+0.587*G+0.114*B分割手语区域时，采用基于灰度直方图的最大类间方差算法，具体实现如下：对于一幅大小为M×N、灰度级数为L的数字图像，图像的总平均灰度记为μ，类间方差记为g；设t为前景与背景的分割阈值，前景点数占图像比例为ω0，平均灰度为μ0；背景点数占图像比例为ω1，平均灰度为μ1；前景和背景图象的类间方差为：g＝ω0*(μ0‑μ)

【技术特征摘要】
1.基于深度置信网络和多模式特征的手语识别方法，其步骤如下：步骤1：建立手语图像样本库；该图像样本库包括通用样本库，还包括自行采集的手语样本；样本库中存储的图像均为bmp,png,jpg格式；步骤2：对图像进行预处理；对图像样本进行预处理，将每一幅图像转换为灰度图像，以便于后续处理；采用基于灰度直方图的快速分割算法，从手语图像中分离手语区域；将彩色RGB图像转换为灰度图像时，采用下式计算灰度值：Gray＝0.299*R+0.587*G+0.114*B分割手语区域时，采用基于灰度直方图的最大类间方差算法，具体实现如下：对于一幅大小为M×N、灰度级数为L的数字图像，图像的总平均灰度记为μ，类间方差记为g；设t为前景与背景的分割阈值，前景点数占图像比例为ω0，平均灰度为μ0；背景点数占图像比例为ω1，平均灰度为μ1；前景和背景图象的类间方差为：g＝ω0*(μ0-μ)2+ω1*(μ1-μ)2采用遍历的方法得到使类间方差g最大的阈值t，即为最优分割阈值；步骤3：对图像中的手语区域进行多模式特征提取；经过步骤2预处理之后，提取手语区域的特征参数，并对该特征参数进行串联处理；所提取的特征参数包括：方向梯度直方图特征，共81维；局部二值模式特征，共256维；Zernike矩特征，共15维；总计352维特征参数；各特征计算方式如下：方向梯度直方图：按照两个一维梯度算子[-101]和[-101]T计算图像各像素点的梯度即包括大小和方向；然后将图像按像素划分为6*6的网格，统计每个网格中不同梯度的个数；将9个网格即3*3，组成一个区域，一个区域内所有网格的特征串联起来便得到该区域的HOG特征；所有区域的HOG特征串联起来就可以得到该图像的HOG特征局部二值模式：采用下式计算每个像素点的LBP值：其中：P表示周边像素点的个数，R表示半径，gc表示中心像素点的灰度值，gp表示周边像素点的灰度值，旋转和灰度不变的LBP值由下式得到：其中：统计变换后的图像直方图，即可得到局部二值模式特征；Zernike矩：对于灰度图像f(x,y)，采用下式计算图像的Zernike矩：其中：λ为归一化系数，x2+y2≤1；步骤4：基于深度置信网络的训练；深度置信网络，是神经网络的一种，由神经...

【专利技术属性】
技术研发人员：胡勇，
申请(专利权)人：金陵科技学院，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人