印刷体汉字识别方法技术

技术编号：2937070 阅读：354 留言：0更新日期：2012-04-11 18:40

一种印刷体汉字识别方法，采用将样本字符缩制在易于光学系统转换的介质上的存储方式代替计算机存储．识别时，将样本字符和被识别字符都转换为二值图形，对被识别字符的二值图形进行字迹加肥或减瘦，而后以样本字符为标准，判别字迹部分、字迹以外的空白部分、字迹与空白都判别、取字迹的３／４进行判别和取字迹以外的空白部分的３／４进行判别．达到识别范围广，能很好地识别缺陷字，从而识别精度高、识别速度快和极大地降低成本的效果．（*该技术在2005年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】
本专利技术属于印刷体文字的自动识别技术，进一步地说是关于印刷体汉字的识别方法。在已有的文字识别技术中，通常采用图形重合法来识别印刷体文字。即用予先存储在机器内的样本字符逐个与被识别的字符进行重合，然后计算类似度，最后选取类似度最大的那个样本字符代表被识别的字符。图形重合法所采用的样本字符多以点阵的形式存储在识别装置或计算机的存储器中，对于中文来说，要想得到清晰的图形和必要的分辨率，每个汉字就需要用几百到几千比特的信息量来表示。要把所有的中文汉字都存入机器中，所需要的存储空间就会大的惊人，这即使在技术上可行，价格也是极其昂贵的，很难推广应用。为了解决这个问题，有人采用信息压缩法对汉字进行处理，即是提取汉字的部分特征，将每个字的特征信息存入存储器中，识别时，将这些特征信息调出与被识别的字的特征信息进行对照。该方法尽管取得了一些进展，但还是需要一个用来存储汉字样本的大容量的存储器，而且在信息压缩时，不小心会将有用的信息压缩掉，使识别精度受到影响，甚至不能识别。采用已有的图形重合法识别文字计算量大、识别范围小、识别精度差、识别速度慢，而且不能判别字符由印刷质量差而产生的误差...

【技术保护点】
一种采用图形重合识别印刷体汉字的方法，其特征在于所说的图形重合是将样本字典［１］中的样本字符和被识别字符分别进行光电转换，转换成二值图形后，将被识别字符的二值图形进行字迹加肥和字迹减瘦，再以样本字符的二值图形为标准与经过加肥和减瘦了的被识别字符的二值图形进行对照，对照字迹部分、对照字迹以外的空白部分、字迹与空白全对照、取字迹的３／４进行对照、取字迹以外的空白部分的３／４进行对照，将各对照和结果分别暂存起来，最后，按规定的优先级别顺序选定识别结果。

【技术特征摘要】
1.一种采用图形重合识别印刷体汉字的方法，其特征在于所说的图形重合是将样本字典[1]中的样本字符和被识别字符分别进行光电转换，转换成二值图形后，将被识别字符的二值图形进行字迹加肥和字迹减瘦，再以样本字符的二值图形为标准与经过加肥和减瘦了的被识别字符的二值图形进行对照，对照字迹部分、对照字迹以外的空白部分、字迹与空白全对照、取字迹的3/4进行对照、取字迹以外的空白部分的3/4进行对照，将各对照的结果分别暂存起来，最后，按规定的优先级别顺序选定识别结果。2.按照权利要求1中所述的印刷体汉字识别方法，其特征在于所说的样本字典〔1〕是将样本字符〔30〕和其它符号印制在易于光学系统转换的介质上面而构成的。3.按照权利要求1中所述的印刷体汉字识别方法、其特征在于所说的对照字迹部分是采用逻辑判别式P＝A·B+A进行判别，所说的对照字迹以外的...

【专利技术属性】
技术研发人员：王雅延，
申请(专利权)人：王雅延，
类型：发明
国别省市：21[中国|辽宁]

全部详细技术资料下载我是这个专利的主人