确定平均字符宽度的方法和装置及字符切分方法和设备制造方法及图纸

技术编号:8683104 阅读:279 留言:0更新日期:2013-05-09 03:03
本发明专利技术提供了确定平均字符宽度的方法和装置以及字符切分方法和设备。用于确定字符组的平均字符宽度的方法包括:得到字符组的第一平均字符宽度;通过置信度计算方法得到用于表示第一平均字符宽度与字符组的真实平均字符宽度的接近程度的第一平均字符宽度的置信度;以及根据第一平均字符宽度的置信度,确定字符组的平均字符宽度为第一平均字符宽度还是第二平均字符宽度。

【技术实现步骤摘要】
确定平均字符宽度的方法和装置及字符切分方法和设备
本专利技术涉及用于切分文档图像(具体地,文本行或文本列)中的字符的字符切分方法和设备,并且更特别地,涉及用于通过使用平均字符宽度来执行字符切分的方法和设备,所述平均字符宽度是通过用于确定文档图像中的文本行或文本列的平均字符宽度的方法和装置而得到的。
技术介绍
在光学字符识别(OCR)系统中,通常例如通过使用“黑像素投影”的方法来执行字符切分。但是,当使用该方法时,将出现两种切分错误。一种切分错误是“不能检测连通字符的切分点”,另一种切分错误是“将至少由两部分构成的并且在这些部分之间具有空白的字符(以下,为了简洁起见,这样的字符将被称为具有规定结构的字符),例如具有左右结构或者上下结构的字符,划分为两个或多个部分”。例如,在中文字符中常常出现上述的“连通字符”和“具有规定结构的字符”。图12示例性地示出了一些错误切分的字符。鉴于以上情况,作为有效的辅助手段,当文档图像中的文本段或文本行/列包括宽度基本上相互一致的字符时,平均字符宽度(ACW)常常被用于进一步切分连通字符以及合并具有规定结构的字符的各部分。具体地,对于连通字符,基于图像的切分方法(例如投影,轮廓或相邻列的黑像素连通度等)可能能够通过调整它们的阈值来检测切分点。但是,即便如此,也出现错误的切分点。在很多情况下,正确的切分点只是所有被检测的切分点中的一小部分。如果不加考虑地处理所有的切分点,那么OCR的速度将急剧降低。此时,平均字符宽度可以对于切分点的数量和它们的位置进行粗略的估计,并且,很多错误的切分点将被放弃。这样,可以大大地提高OCR的速度。另外,对于具有规定结构的字符,当两个或更多个被误分离的部分是被OCR引擎支持的字符或者是具有相似的形状并且具有较高识别置信度的字符时,基于识别置信度的切分后处理方法难以找到正确的切分图形。此时,这些字符的宽度与平均字符宽度之间的差可被用来判断哪个切分图形在当前行/列中是合理的,这能够有效地提高字符切分的精度。因此,为了校正被误分离的或被误组合的字符,希望以高的精度计算平均字符宽度,并且不精确的平均字符宽度将导致切分错误,由此将降低OCR的精度。当前,存在两种用于计算平均字符宽度的方法。第一种方法(也被称为“方法1”)在本文被称为行高方法,其中,基于字符的宽高比遵循某个限制的假设,可通过将文本行的高度(以下被称为“行高”)乘以某个系数而得到文本行的平均字符宽度。通过上述方法得到的平均字符宽度通常可满足上面的切分要求,但是,该方法难以应对常常出现在标题或页眉等中的太宽或太窄的字符。第二种方法(也被称为“方法2”)在本文中被称为宽高比(简写为WHR)范围方法,其中,基于诸如“黑像素投影”的通常的切分方法的切分结果,具有合理宽高比(WHR)的字符被选择并且然后这些所选字符的宽度的平均值被用作文本行的平均字符宽度。但是,在应用第二种方法时,设置宽高比的范围是困难的。具体地,如果宽高比的限制是严格的,那么该方法同样不能处理太宽或太窄的字符;相反,在不严格的限制下,一些被误切分的字符将影响平均字符宽度的精度,当文本行短时或者当存在很多具有规定结构的字符时尤其如此。由上可知,这两种方法不能处理所有的情况。也就是说,由这两种方法所得到的平均字符宽度不一定在所有情况下是精确的或者准确的(反映字符的真实宽度)。日本专利公布No.JP2000-040122公开了一种字符切分方法。具体地,在该方法中,在执行字符切分和得到粗略的切分结果之后,计算各字符的宽度柱状图并且将字符数量最多的字符宽度当作标准字符宽度。在该方法中,使用了各字符的宽度的分布,并且与上面描述的方法2有点相似。日本专利公布No.H05-114048公开了一种用于识别字符的方法和设备,其中,通过利用投影的方法来执行字符切分,并且根据切分结果计算平均字符宽度。当单个字符的宽度大于平均字符宽度时,将通过边界追踪方法对该字符再次切分。但是,该方法仅关注如何利用平均字符宽度,而没有关注如何计算平均字符宽度。然而,缺少有效的用于判断所得到的平均字符宽度是否适当的方法。进一步地,如果所得到的平均字符宽度不适当,则需要用于得到适当的平均字符宽度的方法。
技术实现思路
本专利技术旨在解决上面描述的问题。本专利技术的一个目的是提供解决上面的问题之一或其全部的方法和装置。根据本专利技术的第一方面,提供一种用于确定字符组的平均字符宽度的方法,所述方法包括:第一平均字符宽度得到步骤,通过第一平均字符宽度计算方法得到字符组的第一平均字符宽度;置信度得到步骤,通过置信度计算方法得到第一平均字符宽度的置信度;以及平均字符宽度确定步骤,根据第一平均字符宽度的置信度来确定字符组的平均字符宽度是等于第一平均字符宽度还是等于第二平均字符宽度,其中,所述第二平均字符宽度是通过不同于第一平均字符宽度计算方法的第二平均字符宽度计算方法得到的。根据本专利技术的第二方面,提供一种用于确定字符组的平均字符宽度的装置,所述装置包括:第一平均字符宽度得到单元,被配置为通过第一平均字符宽度计算部件来得到字符组的第一平均字符宽度;置信度得到单元,被配置为通过置信度计算部件得到第一平均字符宽度的置信度;以及平均字符宽度确定单元,被配置为根据第一平均字符宽度的置信度来确定字符组的平均字符宽度是等于第一平均字符宽度还是等于第二平均字符宽度,其中,所述第二平均字符宽度是通过不同于第一平均字符宽度计算部件的第二平均字符宽度计算部件得到的。根据本专利技术的第三方面,提供一种用于切分字符组的方法,所述方法包括:使用上面所述的用于确定字符组的平均字符宽度的方法来确定字符组的平均字符宽度;以及根据字符组的平均字符宽度对字符组执行字符切分与合并。根据本专利技术的第四方面,提供一种用于切分字符组的设备,所述设备被配置为通过上面所述的用于确定字符组的平均字符宽度的装置来确定字符组的平均字符宽度并且根据字符组的平均字符宽度对字符组执行字符切分与合并。从以下参照附图的描述,本专利技术的其它特性特征和优点将变得清晰。附图说明并入到说明书中并且构成说明书一部分的附图示出了本专利技术的实施例,并且与描述一起用于解释本专利技术的原理。在这些附图中,相似的附图标记用于表示相似的项。图1是示出用于实现用于确定字符组的平均字符宽度的装置的计算设备的布置的框图。图2A和图2B是分别示例性地示出文本行和文本列的“行高”、“行宽”、以及“字符宽度”或“字符的宽度”(将在本文中使用)的解释图。图3是示出实现根据本专利技术的第一实施例的用于确定字符组的平均字符宽度的方法的过程的流程图。图4是示出一种置信度计算方法的示例性过程的流程图。图5是示出另一种置信度计算方法的示例性过程的流程图。图6是示出再一种置信度计算方法的示例性过程的流程图。图7是示出根据本专利技术的参照相邻的(前一个或后一个)字符组的平均字符宽度计算方法的示例性过程的流程图。图8是示出根据本专利技术的第六实施例的通过将几种不同的ACW计算方法组合在一起来实现混合ACW计算方法的示例性过程的流程图。图9示出了根据本专利技术的用于确定字符组的平均字符宽度的装置的框图。图10示出了根据本专利技术的另一个用于确定字符组的平均字符宽度的装置的框图。图11包括图11A、图11B和图11C,并且示本文档来自技高网
...
确定平均字符宽度的方法和装置及字符切分方法和设备

【技术保护点】
一种用于确定字符组的平均字符宽度的方法,所述方法包括:第一平均字符宽度得到步骤,通过第一平均字符宽度计算方法得到字符组的第一平均字符宽度;置信度得到步骤,通过置信度计算方法得到第一平均字符宽度的置信度;以及平均字符宽度确定步骤,根据第一平均字符宽度的置信度来确定字符组的平均字符宽度是等于第一平均字符宽度还是第二平均字符宽度,其中,所述第二平均字符宽度是通过不同于第一平均字符宽度计算方法的第二平均字符宽度计算方法得到的。

【技术特征摘要】
1.一种用于确定字符组的平均字符宽度的方法,所述方法的特征在于包括:切分步骤,切分字符组以得到字符备选作为切分结果;第一平均字符宽度得到步骤,通过第一平均字符宽度计算方法得到字符组的第一平均字符宽度;置信度得到步骤,通过第一置信度计算方法得到第一平均字符宽度的置信度;以及平均字符宽度确定步骤,根据第一平均字符宽度的置信度来确定字符组的平均字符宽度是等于第一平均字符宽度还是第二平均字符宽度,其中,所述第二平均字符宽度是通过不同于第一平均字符宽度计算方法的第二平均字符宽度计算方法得到的,其中,第一置信度计算方法包括以下步骤:以所述第一平均字符宽度为中心设定字符宽度的范围作为第一范围;从所述切分结果中选择宽度在第一范围内的字符备选;以及计算所选字符备选的宽度的平均值与所述第一平均字符宽度的比作为所述第一平均字符宽度的置信度。2.根据权利要求1所述的方法,其中,所述第一平均字符宽度计算方法包括:计算所述切分结果中的字符备选的宽度的平均值作为字符组的第一平均字符宽度。3.根据权利要求1所述的方法,其中,所述第一平均字符宽度计算方法包括:计算字符组的行高与第一特定因子的乘积作为字符组的第一平均字符宽度。4.根据权利要求1所述的方法,其中,第二平均字符宽度计算方法包括:设定字符宽高比的范围作为第二范围;选择所述切分结果中字符宽高比处于第二范围内的字符备选;以及计算所选字符备选的宽度的平均值作为字符组中的字符的第二平均字符宽度。5.根据权利要求1所述的方法,其中,所述第二平均字符宽度计算方法包括:在所述切分结果的字符备选数量大于或等于第一阈值的情况下,设定字符宽高比的范围作为第三范围;选择所述切分结果中字符宽高比处于第三范围内的字符备选;得到所选字符的宽度的平均值作为字符组中的字符的第三平均字符宽度;通过第二置信度计算方法得到第三平均字符宽度的置信度;以及根据第三平均字符宽度的置信度,确定第二平均字符宽度是等于第一平均字符宽度还是等于第三平均字符宽度。6.根据权利要求1所述的方法,其中,所述第二平均字符宽度计算方法包括:在字符组具有两个相邻字符组的情况下,通过第二置信度计算方法得到所述两个相邻字符组中的字符的平均字符宽度的置信度,并以所述两个相邻字符组之中具有较大的平均字符宽度的置信度的一个相邻字符组作为所选相邻字符组;以及在字符组具有一个相邻字符组的情况下,以这一个相邻字符组作为所选相邻字符组并且通过第二置信度计算方法得到该所选相邻字符组中的字符的平均字符宽度的置信度;得到字符组的行高与所选相邻字符组的行高之间的差值;如果所述差值大于或等于第二阈值,则将第一平均字符宽度设为第二平均字符宽度;否则通过第一平均字符宽度与所选相邻字符组中的字符的平均字符宽度的加权平均来得到第四平均字符宽度;以及根据所选相邻字符组中的字符的平均字符宽度的置信度,确定第二平均字符宽度是等于第一平均字符宽度还是等于第四平均字符宽度。7.根据权利要求1所述的方法,其中,所述第二平均字符宽度计算方法包括:通过将字符组的行高乘以第二特定因子得到第五平均字符宽度;在所述切分结果的字符备选数量小于第三阈值的情况下,将第五平均字符宽度设为第二平均字符宽度,否则通过第二置信度计算方法得到第五平均字符宽度的置信度;以及根据第五平均字符宽度的置信度,确定第二平均字符宽度是等于第一平均字符宽度还是等于第五平均字符宽度。8.根据权利要求5~7中的任一项所述的方法,其中,对于特定平均字符宽度,所述第二置信度计算方法包括:以所述特定平均字符宽度为中心设定字符宽度的范围作为第三范围;从所述切分结果中选择宽度在第三范围内的字符备选;以及计算所选字符备选的宽度的平均值与所述特定平均字符宽度的比作为所述特定平均字符宽度的置信度。9.根据权利要求5~7中的任一项所述的方法,其中,对于特定平均字符宽度,所述第二置信度计算方法包括:根据所述切分结果中的字符备选的宽度,通过聚类算法将所述切分结果中的字符备选聚类到不同的组;计算各组内的字符备选的宽度的平均值作为该组中的字符备选的平均字符宽度;向各组中的字符备选分配权重并且计算各组的加权后的字符备选数量;从各组中选择加权后的字符备选数量最大的一个组作为所选组;以及计算所选组中的字符备选的平均字符宽度与所述特定平均字符宽度之比作为所述特定平均字符宽度的置信度。10.根据权利要求9所述的方法,其中,向各组中的字符备选分配权重包括:对于各组中的每个字符备选,如果在作为切分点的两个边界处的黑像素投影均为波谷,则向该字符备选分配大于1且小于2的权重;而如果在作为切分点的两个边界处的黑像素投影不是均为波谷,则向该字符备选分配大于0且小于1的权重。11.根据权利要求5~7中的任一项所述的方法,其中,对于特定平均字符宽度,所述第二置信度计算方法包括:以所述特定平均字符宽度为中心设定平均字符宽度的范围作为第四范围;从所述切分结果中选择宽度在第四范围内的字符备选作为第三字符备选组,并且计算所述第三字符备选组的字符备选数量作为第三字符备选数量;根据所述特定平均字符宽度,将所述切分结果中宽度比第四范围的上限大的字符备选切分成字符备选和片段,并将切分的片段与宽度比第四范围的下限小的字符备选进行组合以形成新的字符备选;从所述新的字符备选中选择宽度在第四范围内的字符备选作为第四字符备选组,并计算所述第四字符备选组的字符数量作为第四字符备选数量;以及计算第三字符备选数量及第四字符备选数量之和与所述切分结果的字符备选数量之比作为所述特定平均字符宽度的置信度。12.一种用于对字符组进行切分的方法,其特征在于包括:使用根据权利要求1~11中的任一项所述的方法来确定字符组的平均字符宽度,以及根据字符组的平均字符宽度来对字符组进行字符切分和合并。13.一种用于确定字符组的平均字符宽度的装置,所述装置的特征在于包括:切分单元,...

【专利技术属性】
技术研发人员:许梅芳罗兆海
申请(专利权)人:佳能株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1