一种字符切分的方法和装置制造方法及图纸

技术编号：7917901 阅读：205 留言：0更新日期：2012-10-25 02:54

本发明专利技术公开了一种字符切分的方法，首先，输入待处理的图像，将所述图像转换成二值或灰度图像；利用提取连通域或投影方法对图像中的一行字符进行第一次切分；对于第一次切分后得到的字符按照预定规则进行拆分和/或合并；对于经过以上步骤处理后得到的每个字符计算匹配分数，根据这些分数建立一个二维的字符匹配表；按照一行内所有字符加起来匹配分数最高的规则确定一行内所有字符的切分点，进行第二次切分得到最终切分结果。采用了本发明专利技术的技术方案，能够解决图像中一行字符的通用切分问题，对汉字、数字和英文字母的任意组合进行切分。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像识别及处理
，尤其涉及一种字符切分的方法和装置。
技术介绍
一般情况下，针对某种类型的字符，例如文档影像中的中文字符、字母和数字，都会通过专门的独立算法进行专门的切分，因为这样的切分准确度最高。例如专门通过算法A来实现对汉字的切分，通过算法B对字母和数字切分，当出现数字、字母和中文字符混排的情况时，再写一个算法C专门处理这种情况。这样处理存在两个问题，第一是没有办法做到通用切分，不能使用一种方法来保证各种字符切分的准确度；第二是在实际使用各种切分方法时，有时候并不能预先确定一行字符的具体类型，一行字符可能有时候是全汉字类型，有时候是混排类型，当不能确定字符的具体类型时，就不能选用对应的具体算法来进行切分。也有研究人员曾提出一种基于识别反馈的粘连字符切分的方法，主要是针对粘连字符的切分处理，该方法具体实现的流程图如图I所示，主要通过搜索可能的切分位置，也就是找到可能的粘连字符，把粘连字符提取出来，然后进行切分和辨认，通过调用识别模块对粘连字符进行识别，根据反馈结果找出可靠度最大的切分点。这种方法主要有以下缺点一是仅针对粘连字符来进行切分，不具有通用性；二是该方法并不支持多个识别引擎的反馈，很多时候一个识别引擎的识别结果可能不是最优的，在不同的情况下，不同的识别引擎表现不同；三是该方法只是对给定的一个粘连字符进行切分，没有考虑到粘连字符本身可能并不是由两个独立的字符粘连到一起，他们可能是其他字符的组成部分，即使这些字符被切分开了，由于没有合并，那么这些字符也不能正确定位；四是粘连字符切分过程中要确定是汉字粘连还是字母数字粘连，一种粘...

【技术保护点】
一种字符切分的方法，其特征在于，包括步骤：A、输入待处理的图像，将所述图像转换成二值或灰度图像；B、利用提取连通域或投影方法对图像中的一行字符进行第一次切分；C、对于第一次切分后得到的字符按照预定规则进行拆分和/或合并；D、对于经过步骤C处理后得到的每个字符计算匹配分数，建立一个二维的字符匹配表。E、按照一行内所有字符加起来匹配分数最高的规则确定每个字符的切分点，进行第二次切分，得到最终切分结果。

【技术特征摘要】

【专利技术属性】
技术研发人员：张雪玲，
申请(专利权)人：北京文通科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人