一种基于HMM-GMM的自动文字图片切分方法及系统技术方案

技术编号:12511790 阅读:63 留言:0更新日期:2015-12-16 09:23
本发涉及图像识别领域,特别涉及一种基于HMM-GMM的自动文字图片切分方法及系统。本发明专利技术应用了隐式马尔科夫模型和混合高斯模型的技术,通过对每个待识别文字构建对应HMM模型,使用前后向算法对GMM和跳转参数的进行监督学习,完成对模型的训练,再根据待识别文字图片的观测值序列,使用Viterbi算法计算出得到该观测值序列概率最大的对应隐含状态序列S1...L,根据S1...L与HMM的映射关系找到文字图片的切分点;进而实现文字图片切分的自动化,本发明专利技术方法系统减少了人力标注切分点成本,克服了传统文字图片切分方法的缺陷;显著提高了切分效率;在基于文字图片识别的信息挖掘和图片搜索领域具有巨大的应用前景。

【技术实现步骤摘要】

本专利技术涉及图像识别领域,特别涉及一种基于HMM-GMM的自动文字图片切分方法及系统
技术介绍
随着视听设备的丰富,人们对图像识别技术的需求也在迅猛增长;在众多的图像识别技术中,对图像文字的识别技术显得尤为重要,这是因为图像文字往往比单纯图像包含更加重要的可利用信息,而且图像文字识别技术所应用的领域也很重要,比如说:银行签名的识别,交通管理网络中对于车牌号的追踪和识别,网络安全中对于验证码的识别;这些应用都关系到重要的经济活动或者社会管理活动。而在进行文字图像识别时,首先需要将图像中的字符串切分开,形成包含单个文字的小图片,然后将单个的文字图片送入分类器进行文字识别;传统的光学文字识别(OCR)系统进行文字切分最常用的方法为投影法,即是将图像文字二值化处理后,通过垂直投影密度找到两个文字之间的分界线。当图片没有噪音的情况下该方法非常简单易用,但是这种方法具有先天缺陷:无法很好的解决左右偏旁构建的汉字。为了解决左右结构的汉字图片切分文字,通常采用“切分-识别-合并”的方法或者设置文字尺寸阈值的方法来判断文字之间的切分点;这样方法计算复杂,切分效率低下;而且当图片存在无法很好去掉的噪音的时候,投影法将存在很大的误差,而这种情况是非常常见的;传统方法切分判断效率低下的主要原因还在于切分依据单一(垂直方向的投影密度,忽略了水平方向的重要信息)。为了更好的对图片数据进行存储与分析,这就将产生大量的文字图片的识别需求。由于文字图片存在非常多的样式,比如文字的大小、字体、语言、噪音等,传统的OCR方法针对每一个新的识别任务,都需要开发一个新的工具进行文字图片切分,这将耗费大量的人力成本;严重的影响文字切分的效率;开发出针对特定任务的快速自动文字识别系统变得非常有意义。
技术实现思路
本专利技术的目的在于克服现有技术中所存在的上述不足,提供一种基于HMM-GMM的自动文字图片切分方法及系统。将待处理文字图片转换成时序数据,依次提取特征观测值序列O1.....T=[o1...oT];在提取出特征观测值序列的基础上,使用HMM-GMM对待处理文字图片中的每一字符进行序列建模,完成HMM模型训练;根据待识别文字图片的观测值序列O1.....L=[o1...oL],使用Viterbi算法计算出得到O1.....L=[o1...oL]概率最大的对应隐含状态序列S1...L,根据S1...L与HMM的对应关系找到文字图片的切分点;进而实现文字图片切分的自动化。本专利技术方法系统通过HMM-GMM将垂直信息和水平信息结合起来,得到文字切分的依据更加合理,同时选取的特征的不同能够得到不同文字切分依据,使得文字的切分依据更加多样化,有利于减小噪声污染对文字切分的不利影响;此外本专利技术方法使用HMM-GMM对文字切分的自动化程度较高,在图像文字识别中具有较高的普适性,显著的提高了文字图片的切分效率。为了实现上述专利技术目的,本专利技术提供了以下技术方案:一种基于HMM-GMM的自动文字图片切分方法,包含以下实现步骤:(1)根据待识别文字图片所包含的字符集,选取对应的图片作为待处理子图片,并根据待处理子图片构建待处理文字图片,将待处理文字图片转换成时序特征的数据,并提取特征;(2)对待处理文字图片中的每一字符构建对应的HMM,并使用GMM来估计HMM中的概率分布;(3)根据待识别文字图片的大小构建相应的解码网络,提取待识别图片的观测值序列O1.....L=[o1...oL];使用Viterbi算法,找出概率最大的对应隐含状态序列S1...L;并根据此隐含状态序列与所述步骤(2)中字符的HMM对应关系,找出文字的切分点。其中所述步骤(1)的具体实现过程如下:(1-1)根据待识别文字图片所包含的字符集,选取相对应的子图片作为待处理子图片。为了使文字切分识别更加高效,减少非必须的计算量,只需要选取与待识别文字图片相适应的字符集所对应的图片来进行相应的处理,比如说比如说待识别图片中仅仅包含数字,那么只需要对应研究对应的数字集“0、1、2、3、4、5、6、7、8、9”图片而不需要研究汉字集图片;当待识别图片中既包括字母又包括数字还包括汉字,比如说常见的车牌号识别,就需要对汉字、字母以及数字所对应的图片都进行研究;而且本专利技术所说的字符集是指待识别图片集中所包含的所有字符构成的集合,比如说待识别图片集中包含1000个汉字,那么只需要选择这1000个汉字对应的文字图片作为待处理子图片。进一步的,为了使文字图片切分具有更高的抗噪声干扰能力,可以在待识别图片中选取具有待识别文字图片一般噪声特征的文字图片作为待处理子图片,比如说待识别文字图片中包括点状背景噪声、线条噪声和扭曲特征,那么选择的待处理子图片可以包含上述噪声和扭曲特征;这样在后续步骤中进行HMM模型建立和切分识别时具有更高的准确率。(1-2)将所有待处理子图片转化成只包含一行文字的待处理文字图片(将待处理文字图片时序化,便于在后续步骤中提取时序特征数据),并将所有待处理子图片调整为同一高度,比如说为M(像素);将待处理子图片的高度归一化可以减少由于图片大小不同而引起的计算复杂度;提高文字切分的处理效率。(1-3)依次对待处理文字图片中的每个待处理子图片提取特征观测值,形成对应的特征观测值序列。具体的,给定一张大小为M*T分辨率的图片可以得到包含T个特征的序列数据O1.....T=[o1...oT],特别的,采用W宽度的采样窗口可以提取更多类型的特征;当选取W列作为一个采样窗口时,可以得到O1.....Z=[o1..ot.oZ],其中Z≥T/w,一般来讲窗口之间存在着重叠用来保证特征的平滑性,ot=[ctΔctΔ2ct],ct为W列窗口投影的密度值,ct相关参数的计算公式如下:ct=Σi=1MΣj=t-w/2t+w/2Pi,j]]>Δct=Σi=1δi(ct+i-ct-i)2Σi=1δi2]]>Δ2ct=Σi=1δi(Δct+i-Δct-i)2Σi=1δi2]]>进一步的,所述ct也可以为其他特征,比如说W列窗口的线段平均长度等。特征的选取不同,将直接影响到切分点的判断结果,因此需要根据待识别图片的具体情况选择能够将每个待识别字符区分出来特征;具有可区分性是特征选取的依据。(1-4)对待处理文本文档来自技高网
...

【技术保护点】
一种基于HMM‑GMM的自动文字图片切分方法,其特征是:将待处理文字图片转换成时序数据,依次提取特征观测值序列O1.....T=[o1 . . . oT];在提取出特征观测值序列的基础上,使用HMM‑GMM对待处理文字图片中的每一字符进行序列建模,完成HMM模型训练;根据待识别文字图片的观测值序列O1...L=[o1 . . . oL],使用Viterbi算法计算出得到所述O1.....L=[o1 . . . oL]概率最大的对应隐含状态序列S1...L,根据S1...L与HMM的对应关系找到文字图片的切分点;进而实现文字图片切分的自动化。

【技术特征摘要】
1.一种基于HMM-GMM的自动文字图片切分方法,其特征是:将待处理文字图片转换成时序数据,依次提取特征观测值序列O1.....T=[o1...oT];在提取出特征观测值序列的基础上,使用HMM-GMM对待处理文字图片中的每一字符进行序列建模,完成HMM模型训练;根据待识别文字图片的观测值序列O1...L=[o1...oL],使用Viterbi算法计算出得到所述O1.....L=[o1...oL]概率最大的对应隐含状态序列S1...L,根据S1...L与HMM的对应关系找到文字图片的切分点;进而实现文字图片切分的自动化。
2.如权利要求1所述的方法,其特征是,包含以下实现步骤:
(1)选择与待识别文字图片对应的待处理子图片来构建待处理文字图片,将待处理文字图片转换成时序特征的数据,并提取特征;
(2)对待处理文字图片中的每一字符构建对应的HMM,并使用GMM来估计HMM中的概率分布;
(3)根据待识别文字图片的大小构建相应的解码网络,提取待识别图片的观测值序列O1.....L=[o1...oL];使用Viterbi算法,找出概率最大的对应隐含状态序列S1...L;并根据此隐含状态序列与所述步骤(2)中字符的HMM对应关系,找出文字的切分点。
3.如权利要求2所述的方法,其特征是,所述步骤(1)包含以下实现步骤:
(1-1)根据待识别文字图片所包含的字符集,选取相对应的子图片作为待处理子图片;
(1-2)将所有待处理子图片转化成只包含一行文字的待处理文字图片;
(1-3)依次对待处理文字图片提取特征观测值,形成对应的特征观测值序列:O1.....T=[o1...oT];
(1-4)对待处理文字图片中的每个字符进行人工标注。
4.如权利要求2所述的方法,其特征是,所述步骤(2)包含以下实现步骤:
(2-1)将待处理文字图片中的每个字符划分为由含有N个隐含状态的HMM所构成,提取每个字符的特征观测值,并使用GMM来估计观测值的概率分布。
5.如权利要求4所述的方法,其特征是,所述步骤(2)包含以下实现步骤:
(2-2)当待处理文字图片中包含K个字符时,给定该待处理文字图片的标注及其5*K状态的HMM,计算前后向算法...

【专利技术属性】
技术研发人员:刘世林何宏靖陈炳章吴雨浓
申请(专利权)人:成都数联铭品科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1