一种基于HMM-GMM的自动文字图片切分方法及系统技术方案

技术编号：12511790 阅读：63 留言：0更新日期：2015-12-16 09:23

本发涉及图像识别领域，特别涉及一种基于HMM-GMM的自动文字图片切分方法及系统。本发明专利技术应用了隐式马尔科夫模型和混合高斯模型的技术，通过对每个待识别文字构建对应HMM模型，使用前后向算法对GMM和跳转参数的进行监督学习，完成对模型的训练，再根据待识别文字图片的观测值序列，使用Viterbi算法计算出得到该观测值序列概率最大的对应隐含状态序列S1...L，根据S1...L与HMM的映射关系找到文字图片的切分点；进而实现文字图片切分的自动化，本发明专利技术方法系统减少了人力标注切分点成本，克服了传统文字图片切分方法的缺陷；显著提高了切分效率；在基于文字图片识别的信息挖掘和图片搜索领域具有巨大的应用前景。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像识别领域，特别涉及一种基于HMM-GMM的自动文字图片切分方法及系统。
技术介绍
随着视听设备的丰富，人们对图像识别技术的需求也在迅猛增长；在众多的图像识别技术中，对图像文字的识别技术显得尤为重要，这是因为图像文字往往比单纯图像包含更加重要的可利用信息，而且图像文字识别技术所应用的领域也很重要，比如说：银行签名的识别，交通管理网络中对于车牌号的追踪和识别，网络安全中对于验证码的识别；这些应用都关系到重要的经济活动或者社会管理活动。而在进行文字图像识别时，首先需要将图像中的字符串切分开，形成包含单个文字的小图片，然后将单个的文字图片送入分类器进行文字识别；传统的光学文字识别(OCR)系统进行文字切分最常用的方法为投影法，即是将图像文字二值化处理后，通过垂直投影密度找到两个文字之间的分界线。当图片没有噪音的情况下该方法非常简单易用，但是这种方法具有先天缺陷：无法很好的解决左右偏旁构建的汉字。为了解决左右结构的汉字图片切分文字，通常采用“切分-识别-合并”的方法或者设置文字尺寸阈值的方法来判断文字之间的切分点；这样方法计算复杂，切分效率低下；而且当图片存在无法很好去掉的噪音的时候，投影法将存在很大的误差，而这种情况是非常常见的；传统方法切分判断效率低下的主要原因还在于切分依据单一(垂直方向的投影密度，忽略了水平方向的重要信息)。为了更好的对图片数据进行存储与分析，这就将产生大量...

【技术保护点】
一种基于HMM‑GMM的自动文字图片切分方法，其特征是：将待处理文字图片转换成时序数据，依次提取特征观测值序列O1.....T＝[o1 . . . oT]；在提取出特征观测值序列的基础上，使用HMM‑GMM对待处理文字图片中的每一字符进行序列建模，完成HMM模型训练；根据待识别文字图片的观测值序列O1...L＝[o1 . . . oL]，使用Viterbi算法计算出得到所述O1.....L＝[o1 . . . oL]概率最大的对应隐含状态序列S1...L，根据S1...L与HMM的对应关系找到文字图片的切分点；进而实现文字图片切分的自动化。

【技术特征摘要】
1.一种基于HMM-GMM的自动文字图片切分方法，其特征是：将待处理文字图片转换成时序数据，依次提取特征观测值序列O1.....T＝[o1...oT]；在提取出特征观测值序列的基础上，使用HMM-GMM对待处理文字图片中的每一字符进行序列建模，完成HMM模型训练；根据待识别文字图片的观测值序列O1...L＝[o1...oL]，使用Viterbi算法计算出得到所述O1.....L＝[o1...oL]概率最大的对应隐含状态序列S1...L，根据S1...L与HMM的对应关系找到文字图片的切分点；进而实现文字图片切分的自动化。
2.如权利要求1所述的方法，其特征是，包含以下实现步骤：
(1)选择与待识别文字图片对应的待处理子图片来构建待处理文字图片，将待处理文字图片转换成时序特征的数据，并提取特征；
(2)对待处理文字图片中的每一字符构建对应的HMM，并使用GMM来估计HMM中的概率分布；
(3)根据待识别文字图片的大小构建相应的解码网络，提取待识别图片的观测值序列O1.....L＝[o1...oL]；使用Viterbi算法，找出概率最大的对应隐含状态序列S1...L；并根据此隐含状态序列与所述步骤(2)中字符的HMM对应关系，找出文字的切分点。
3.如权利要求2所述的方法，其特征是，所述步骤(1)包含以下实现步骤：
(1-1)根据待识别文字图片所包含的字符集，选取相对应的子图片作为待处理子图片；
(1-2)将所有待处理子图片转化成只包含一行文字的待处理文字图片；
(1-3)依次对待处理文字图片提取特征观测值，形成对应的特征观测值序列：O1.....T＝[o1...oT]；
(1-4)对待处理文字图片中的每个字符进行人工标注。
4.如权利要求2所述的方法，其特征是，所述步骤(2)包含以下实现步骤：
(2-1)将待处理文字图片中的每个字符划分为由含有N个隐含状态的HMM所构成，提取每个字符的特征观测值，并使用GMM来估计观测值的概率分布。
5.如权利要求4所述的方法，其特征是，所述步骤(2)包含以下实现步骤：
(2-2)当待处理文字图片中包含K个字符时，给定该待处理文字图片的标注及其5*K状态的HMM，计算前后向算法...

【专利技术属性】
技术研发人员：刘世林，何宏靖，陈炳章，吴雨浓，
申请(专利权)人：成都数联铭品科技有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人