一种字符分割方法及装置制造方法及图纸

技术编号:9356936 阅读:83 留言:0更新日期:2013-11-21 00:07
本发明专利技术适用于文字处理技术领域,提供了一种字符分割方法及装置,所述方法包括:对包含字符的图像进行预处理得到处理后的二值化图像进行n连通域的搜索,得到第i行字符的第一矩形框组;按照预设的合并条件,对第i行字符的第一矩形框组进行合并处理,得到第i行字符的第二矩形框组;当第i行字符的第二矩形框组的宽度与第i行字符的平均宽度差值小于预设宽度差值时,保留所述第i行字符的第二矩形框组。本发明专利技术通过字符宽度和经过试验得出的预设值,将汉字、字母和数字分开,解决了现有技术存在的,只能用于对汉字或者字母中一种进行分割,如果同时对汉字、字母和数字进行分割,经常出现错误,效果不佳的问题。

【技术实现步骤摘要】
一种字符分割方法及装置
本专利技术属于文字处理
,尤其涉及一种字符分割方法及装置。
技术介绍
字符包括汉字、字母和数字,常规的字符分割方法一般基于图像灰度的直方图投影,或者基于直方图投影后计算一个平均的字符宽度进行,或者基于直方图投影后计算一个平均字符宽度进行,或者对于每个灰度直方图得到的点进行分析,采用一些特定措施来处理,但是上述方法这些都只是具有一定的适用范围,只能用于对汉字或者字母中一种进行分割,如果同时对汉字、字母和数字进行分割,经常出现错误,效果不佳。
技术实现思路
本专利技术实施例的目的在于提供一种字符分割方法及装置,以解决现有技术存在的,同时对汉字、字母和数字进行分割时,经常出现错误和效果不佳的问题。本专利技术的实施例是这样实现的,一种字符分割方法,所述方法包括以下步骤:对包含字符的图像进行预处理得到处理后的二值化图像,所述预处理包括中值滤波、直方图均衡化和图像二值化;对所述二值化图像的第i行字符进行n连通域的搜索,得到第i行字符的第一矩形框组;按照预设的合并条件,对第i行字符的第一矩形框组进行合并处理,得到第i行字符的第二矩形框组;根据第i行字符的第二矩形框组的水平长度,采用预设定方法确定第i行字符的平均宽度;当第i行字符的第二矩形框组的宽度与第i行字符的平均宽度差值小于预设宽度差值时,保留所述第i行字符的第二矩形框组,否则,保留所述第i行字符的第一矩形框组。本专利技术的另一实施例的目的在于提供一种字符分割装置,所述装置包括:预处理模块,用于对包含字符的图像进行预处理得到处理后的二值化图像,所述预处理包括中值滤波、直方图均衡化和图像二值化;处理模块,用于对所述二值化图像的第i行字符进行n连通域的搜索,得到第i行字符的第一矩形框组;所述处理模块,还用于按照预设的合并条件,对第i行字符的第一矩形框组进行合并处理,得到第i行字符的第二矩形框组;计算单元,用于根据第i行字符的第二矩形框组的水平长度,采用预设定方法确定第i行字符的平均宽度;所述处理单元,还用于当第i行字符的第二矩形框组的宽度与第i行字符的平均宽度差值小于预设宽度差值时,保留所述第i行字符的第二矩形框组,否则,保留所述第i行字符的第一矩形框组。本专利技术实施例通过将字符所在矩形框进行绝对值运算,将误分割的汉字合并,并且通过汉字与数字及字母的宽度不一样,将汉字与数字及字符分割开,解决了现有技术存在的,同时对汉字、字母和数字进行分割时,经常出现错误和效果不佳的问题。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一种字符分割方法第一实施例提供的实现流程图;图2是本专利技术一种字符分割方法第一实施例提供的二值化图像在y方向统计得到的曲线图;图3是本专利技术一种字符分割装置第一实施例提供的模块结构图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术第一实施例提供了字符分割方法,所述方法如图1所示,具体步骤包括:在步骤S101中,对包含字符的图像进行预处理得到处理后的二值化图像。需要说明的是,字符包括汉字、字母和数字等,包含字符的图像是指照相机或者扫描仪等设备拍摄纸质文本获取的图像,在拍摄过程中由于拍照条件可能造成字符粘连或者断笔等,所述图像中的字符可能只有一行,也可能有多行;所述预处理包括但不限于中值滤波、直方图均衡化和图像二值化,通过所述预处理将包含字符的图像转换为体现文字特征的图像。进一步需要说明的是,对于预处理后的二值化图像,在y(y轴)方向上进行二值化数据统计,得到文字在y方向上的分布情况,根据方向上的分布情况,根据y方向的波峰数量可以确定该图像中有多少行字符。图2示出了对汉字、字母和数字的二值化图像在y方向统计得到的曲线图。在步骤S102中,对所述二值化图像的第i行字符进行n连通域的搜索,得到第i行字符的第一矩形框组。需要说明的是,i的取值范围从1到图像中字符总的行数;第一矩形框组是矩形框的集合,包括一个或者多个矩形框,在步骤S102中,是按照n连通域的搜索得到,矩形框中可能只有汉字、数字或者字母,由于n连通域的搜索方法的技术缺陷,导致一个汉字和一个数字在一个矩形框中,或者一个汉字的左偏旁在一个矩形框,而右偏旁在相邻一个矩形框,例如“江”字,三点水在一个矩形框,而工字在另外一个矩形框。进一步需要说明的是,n连通域的搜索中的n是通过实验得到的经验值,连通域的搜索是现有技术。在步骤S103中,按照预设的合并条件,对第i行字符的第一矩形框组进行合并处理,得到第i行字符的第二矩形框组。需要说明的是,第二矩形框组也是矩形框的一个集合。具体地,实现所述步骤S103的方法包括:在第i行字符的第一矩形框组中,相邻两个矩形框水平坐标差值绝对值小于预设水平差值,且垂直坐标差值绝对值小于预设垂直差值时,将所述相邻两个矩形框合并为一个矩形框,得到第i行字符的第二矩形框组。需要说明的是,水平坐标是指矩形框中心点的水平坐标,垂直坐标是指矩形框中心点的垂直坐标,上述方法尤其是对汉字有用,因为汉字一般都有偏旁部首,为左右结构或者上下结构,容易被识别成相邻两个字符,例如在汉字中,“吴”可能在n连通域的搜索的时候当成“口”和“天”被划分进两个矩形框,通过步骤S103的方法可以将上述“口”和“天”所在的矩形框合并成一个矩形框。进一步需要说明的是,预设水平差值和预设垂直差值是经过反复试验后得到的;第二矩形框组也是矩形框的集合。在步骤S104中,根据第i行字符的第二矩形框组的水平长度,采用预设定方法确定第i行字符的平均宽度。具体地,实现步骤S104的方法包括:将第i行字符的第二矩形框组的水平长度降序排列成一个数组;将所述数组数值作为元素,按照离散函数的方法求取所述数组的一阶导数;将一阶导数大于预设导数值对应的合并后的字符所在矩形框水平方向上的长度提取出来并求平均值,得到所述行中字符的平均宽度。需要说明的是,第二矩形框组的水平长度是指第二矩形框组包括的所有矩形框的水平长度,例如第i行的第二矩形框组包括5个矩形框,矩形框的水平长度分别为15、14、13、8、4,将上述水平长度排列为一个数组{15,14,13,8,4},求得一阶导数为{-1,-1,-5,-4},需要说明的是,这里求一阶导数的结果仅仅作为例子说明,并不代表求得的一阶导数为上述数值,假定预设导数值为4,将第一次大于预设导数值的一阶导数绝对值所对应的15、14和13求平均值为14,也就是行中字符平均宽度为14。在步骤S105中,当第i行字符的第二矩形框组的宽度与第i行字符的平均宽度差值小于预设宽度差值时,保留所述第i行字符的第二矩形框组,否则,保留所述第i行字符的第一矩形框组。需要说明的是,上述步骤S105的目的是为了防止某个数值或者字母被误合并到汉字所在的矩形框,因为矩形框内包括汉字加上字母,则第i行字符的第二矩形框组的宽度与第i行字符的平均宽度差值大于预设宽度差值,取消第本文档来自技高网...
一种字符分割方法及装置

【技术保护点】
一种字符分割方法,其特征在于,所述方法包括:对包含字符的图像进行预处理得到处理后的二值化图像,所述预处理包括中值滤波、直方图均衡化和图像二值化;对所述二值化图像的第i行字符进行n连通域的搜索,得到第i行字符的第一矩形框组;按照预设的合并条件,对第i行字符的第一矩形框组进行合并处理,得到第i行字符的第二矩形框组;根据第i行字符的第二矩形框组的水平长度,采用预设定方法确定第i行字符的平均宽度;当第i行字符的第二矩形框组的宽度与第i行字符的平均宽度差值小于预设宽度差值时,保留所述第i行字符的第二矩形框组,否则,保留所述第i行字符的第一矩形框组。

【技术特征摘要】
1.一种字符分割方法,其特征在于,所述方法包括:对包含字符的图像进行预处理得到处理后的二值化图像,所述预处理包括中值滤波、直方图均衡化和图像二值化;对所述二值化图像的第i行字符进行n连通域的搜索,得到第i行字符的第一矩形框组;按照预设的合并条件,对第i行字符的第一矩形框组进行合并处理,得到第i行字符的第二矩形框组;将第i行字符的第二矩形框组的水平长度降序排列成一个数组;将所述数组数值作为元素,按照离散函数的方法求取所述数组的一阶导数;将一阶导数大于预设导数值对应的第二矩形框组的水平长度提取出来,求平均值得到第i行的平均宽度;当第i行字符的第二矩形框组的宽度与第i行字符的平均宽度差值小于预设宽度差值时,保留所述第i行字符的第二矩形框组,否则,保留所述第i行字符的第一矩形框组。2.如权利要求1所述的方法,其特征在于,所述方法还包括:根据所述第i行字符的第一矩形框组和第二矩形框组对第i行字符进行分割处理。3.如权利要求1所述的方法,其特征在于,所述按照预设的合并条件,对第i行字符的第一矩形框组进行合并处理,得到第i行字符的第二矩形框组具体为:在第i行字符的第一矩形框组中,相邻两个矩形框水平坐标差值绝对值小于预设水平差值,且垂直坐标差值绝对值小于预设垂直差值时,将所述相邻两个矩形框合并为一个矩形框,得到第i行字符的第二矩形框组。4....

【专利技术属性】
技术研发人员:周龙沙邵诗强
申请(专利权)人:TCL集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1