基于深度置信网络和多模式特征的手语识别方法技术

技术编号:21116384 阅读:52 留言:0更新日期:2019-05-16 09:10
本发明专利技术提供一种基于深度置信网络(Deep Belief Network,DBN)和多模式特征的手语识别方法,涉及图像处理技术和机器学习领域。该方法包括:输入手语图像或视频,对手语图像进行预处理,提取方向梯度直方图(Histogram of Oriented Gradient,HOG)、局部二值模式(Local Binary Patterns,LBP)和Zernike矩等特征作为特征参数,利用深度置信网络进行训练和识别。本发明专利技术能实时识别图像中的手语信息,具有较高的识别准确率。

Sign Language Recognition Based on Depth Confidence Network and Multi-pattern Features

【技术实现步骤摘要】
基于深度置信网络和多模式特征的手语识别方法
本专利技术涉及一种基于深度置信网络(DeepBeliefNetwork,DBN)和多模式特征的手语识别方法,属于图像处理技术和机器学习领域。技术背景手语指以约定俗成的手势变化(或辅以表情)模拟形象或者音节以构成的一定意义的词语,它是听力障碍、无法言语的人(即聋哑人)互相交际和交流思想的一种手段,是“有声语言的重要辅助工具”,而对于听力障碍的人来说,它则是主要的交流工具。手语识别的目的是通过计算机提供一种有效且准确的机制,将手语翻译成文本或语音使得聋人和听力正常人之间的交流变得更加方便、快捷。我国目前有两千多万聋人,对手语识别的研究,无疑将直接造福于这个群体,为其提供一种更加自然、更加方便快捷地与健听人交流的途径,以便他们更好地融入社会,这也必将对构建多元关爱的和谐社会产生积极影响。对于经典的模式识别方法,主要步骤可以分为预处理、特征提取、特征选择(降维或融合等)、训练分类器(或分类)等。通常来说,由于单个特征并不能全面的反映图像信息,因此对每个特征分别进行分类器处理后,得到的信息并不一定准确。因此,将来源不同的特征信息整合到一起,去除冗余得到的融合信息将利于后续的分析处理与识别。从统计结果来看,多融合特征方法进行图像分类比单个特征效果好。深度学习提出了一种让计算机自动学习模式特征的方法,并将特征学习融入到了建立模型的过程中,从而减少了人为设计特征造成的不完备性。深度信念网络是深度学习里面的基本模型之一,也是机器学习的一个分支,通过生成模型学习联合概率密度分布,可以从统计的角度表示数据的分布情况,能够反映同类数据本身的相似度。因此,基于深度置信网络的手语识别已经成为国内外研究的热点,其研究具有重要的理论意义和现实意义。
技术实现思路
本专利技术提供一种基于深度置信网络(DeepBeliefNetwork,DBN)和多模式特征的手语识别方法,涉及图像处理技术和机器学习领域。该方法包括:输入手语图像或视频,对手语图像进行预处理,提取方向梯度直方图(HistogramofOrientedGradient,HOG)、局部二值模式(LocalBinaryPatterns,LBP)和Zernike矩等特征作为特征参数,利用深度置信网络进行训练和识别。本专利技术能实时识别图像中的手语信息,具有较高的识别准确率。本专利技术所要解决的技术问题是:对图像中的手语进行识别。所采用的技术方案是:步骤1:建立手语图像样本库;该图像样本库包括通用样本库和自行采集的手语样本;步骤2:对手语图像进行预处理;对图像样本进行预处理,将样本库中每一幅图像转换为灰度图像,以便于后续处理;采用基于灰度直方图的快速分割算法,从手语图像中分离手语区域;步骤3:对图像中的手语区域多模式特征提取;提取手语区域的多种特征参数,合成能表达该手语的多模式特征信息。经过步骤2预处理之后,提取手语区域的特征参数,并对该特征参数进行串联处理;本专利技术所提取的特征参数包括:方向梯度直方图特征,共81维;局部二值模式特征,共256维;Zernike矩特征,共15维;总计352维特征参数;步骤4:基于深度置信网络的训练过程;具体过程为:首先计算隐层中每个神经元被激活的概率,并通过隐层反推显层。当隐层神经元数量小于显层时,得到最优的模型参数,使得在该参数下RBM表示的可见层节点概率分布尽可能地与训练数据相符合,然后继续训练下一层的RBM,直至最后一层。根据训练得到的模型参数,即可对待分类样本进行识别;步骤5:基于深度置信网络的识别过程当识别待分类样本时,根据训练得到的模型参数,在DBN的最顶层增加softmax回归层,输出每一类目标的概率,作为分类识别的结果。本专利技术的优点:本专利技术提供一种基于深度置信网络(DeepBeliefNetwork,DBN)和多模式特征的手语识别方法深度信念网络是深度学习里面的基本模型之一,也是机器学习的一个分支,通过生成模型学习联合概率密度分布,可以从统计的角度表示数据的分布情况,能够反映同类数据本身的相似度,因此具有较高的识别率。附图说明图1基于深度置信网络和多模式特征的手语识别算法框架;图2所示为受限玻尔兹曼机;图3Pugeault手语图像样本库;图4显示了在50%样本参与训练时,各英文字母的识别准确率。具体实施方式如图1所示,建立手语图像样本库,对手语图像进行预处理,从手语图像中分离手语区域,提取手语区域的多种特征参数,合成能表达该手语的多模式特征信息。采用对比散度算法训练每层RBM,根据给定的训练样本,调整模型的参数,使得在该参数下RBM表示的可见层节点概率分布尽可能地与训练数据相符合。根据训练得到的模型参数,即可对待分类样本进行识别。本专利技术采用如下技术方案:一种基于深度置信网络和多模式特征的手语识别方法,其步骤如下:步骤1:建立手语图像样本库;该图像样本库包括通用样本库(Pugeault手语图像样本库[1]);还包括自行采集的手语样本;样本库中存储的图像均为常用格式(包括:bmp,png,jpg等格式);Pugeault手语图像样本库中的图像均为RGB彩色图像,包括24个英文字母,样本库A和B分别对应不同背景。样本库A包含了5位手语使用者的500幅图片,图片总数为120000张。自行采集的手语样本库也包含了相同的英文字母,由3位手语使用者演示,每人采集了50张图片,总共3600张。步骤2:对图像进行预处理;对图像样本进行预处理,将样本库中每一幅图像转换为灰度图像,以便于后续处理;采用基于灰度直方图的快速分割算法,从手语图像中分离手语区域;将彩色RGB图像转换为灰度图像时,采用下式计算灰度值:Gray=0.299*R+0.587*G+0.114*B分割手语区域时,采用基于灰度直方图的最大类间方差算法,具体实现如下:对于一幅大小为M×N、灰度级数为L的数字图像,图像的总平均灰度记为μ,类间方差记为g。设t为前景与背景的分割阈值,前景点数(灰度值大于阈值t)占图像比例为ω0,平均灰度为μ0;背景点数(灰度值小于阈值t)占图像比例为ω1,平均灰度为μ1。前景和背景图象的类间方差为:g=ω0*(μ0-μ)2+ω1*(μ1-μ)2采用遍历的方法得到使类间方差g最大的阈值t,即为最优分割阈值。步骤3:对图像中的手语区域进行多模式特征提取;提取手语区域的多种特征参数,合成能表达该手语的多模式特征信息。经过步骤2预处理之后,提取手语区域的特征参数,并对该特征参数进行串联处理;本专利技术所提取的特征参数包括:方向梯度直方图特征,共81维;局部二值模式特征,共256维;Zernike矩特征,共15维;总计352维特征参数;各特征计算方式如下:方向梯度直方图:按照两个一维梯度算子[-101]和[-101]T计算图像各像素点的梯度(包括大小和方向);然后将图像按像素划分为6*6的网格,统计每个网格中不同梯度的个数;将9个网格(3*3)组成一个区域,一个区域内所有网格的特征串联起来便得到该区域的HOG特征;所有区域的HOG特征串联起来就可以得到该图像的HOG特征。局部二值模式:采用下式计算每个像素点的LBP值:其中:P表示周边像素点的个数,R表示半径,gc表示中心像素点的灰度值,gp表示周边像素点的灰度值。旋转和灰度不变的LBP本文档来自技高网
...

【技术保护点】
1.基于深度置信网络和多模式特征的手语识别方法,其步骤如下:步骤1:建立手语图像样本库;该图像样本库包括通用样本库,还包括自行采集的手语样本;样本库中存储的图像均为bmp,png,jpg格式;步骤2:对图像进行预处理;对图像样本进行预处理,将每一幅图像转换为灰度图像,以便于后续处理;采用基于灰度直方图的快速分割算法,从手语图像中分离手语区域;将彩色RGB图像转换为灰度图像时,采用下式计算灰度值:Gray=0.299*R+0.587*G+0.114*B分割手语区域时,采用基于灰度直方图的最大类间方差算法,具体实现如下:对于一幅大小为M×N、灰度级数为L的数字图像,图像的总平均灰度记为μ,类间方差记为g;设t为前景与背景的分割阈值,前景点数占图像比例为ω0,平均灰度为μ0;背景点数占图像比例为ω1,平均灰度为μ1;前景和背景图象的类间方差为:g=ω0*(μ0‑μ)

【技术特征摘要】
1.基于深度置信网络和多模式特征的手语识别方法,其步骤如下:步骤1:建立手语图像样本库;该图像样本库包括通用样本库,还包括自行采集的手语样本;样本库中存储的图像均为bmp,png,jpg格式;步骤2:对图像进行预处理;对图像样本进行预处理,将每一幅图像转换为灰度图像,以便于后续处理;采用基于灰度直方图的快速分割算法,从手语图像中分离手语区域;将彩色RGB图像转换为灰度图像时,采用下式计算灰度值:Gray=0.299*R+0.587*G+0.114*B分割手语区域时,采用基于灰度直方图的最大类间方差算法,具体实现如下:对于一幅大小为M×N、灰度级数为L的数字图像,图像的总平均灰度记为μ,类间方差记为g;设t为前景与背景的分割阈值,前景点数占图像比例为ω0,平均灰度为μ0;背景点数占图像比例为ω1,平均灰度为μ1;前景和背景图象的类间方差为:g=ω0*(μ0-μ)2+ω1*(μ1-μ)2采用遍历的方法得到使类间方差g最大的阈值t,即为最优分割阈值;步骤3:对图像中的手语区域进行多模式特征提取;经过步骤2预处理之后,提取手语区域的特征参数,并对该特征参数进行串联处理;所提取的特征参数包括:方向梯度直方图特征,共81维;局部二值模式特征,共256维;Zernike矩特征,共15维;总计352维特征参数;各特征计算方式如下:方向梯度直方图:按照两个一维梯度算子[-101]和[-101]T计算图像各像素点的梯度即包括大小和方向;然后将图像按像素划分为6*6的网格,统计每个网格中不同梯度的个数;将9个网格即3*3,组成一个区域,一个区域内所有网格的特征串联起来便得到该区域的HOG特征;所有区域的HOG特征串联起来就可以得到该图像的HOG特征局部二值模式:采用下式计算每个像素点的LBP值:其中:P表示周边像素点的个数,R表示半径,gc表示中心像素点的灰度值,gp表示周边像素点的灰度值,旋转和灰度不变的LBP值由下式得到:其中:统计变换后的图像直方图,即可得到局部二值模式特征;Zernike矩:对于灰度图像f(x,y),采用下式计算图像的Zernike矩:其中:λ为归一化系数,x2+y2≤1;步骤4:基于深度置信网络的训练;深度置信网络,是神经网络的一种,由神经...

【专利技术属性】
技术研发人员:胡勇
申请(专利权)人:金陵科技学院
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1