【技术实现步骤摘要】
确定平均字符宽度的方法和装置及字符切分方法和设备
本专利技术涉及用于切分文档图像(具体地,文本行或文本列)中的字符的字符切分方法和设备,并且更特别地,涉及用于通过使用平均字符宽度来执行字符切分的方法和设备,所述平均字符宽度是通过用于确定文档图像中的文本行或文本列的平均字符宽度的方法和装置而得到的。
技术介绍
在光学字符识别(OCR)系统中,通常例如通过使用“黑像素投影”的方法来执行字符切分。但是,当使用该方法时,将出现两种切分错误。一种切分错误是“不能检测连通字符的切分点”,另一种切分错误是“将至少由两部分构成的并且在这些部分之间具有空白的字符(以下,为了简洁起见,这样的字符将被称为具有规定结构的字符),例如具有左右结构或者上下结构的字符,划分为两个或多个部分”。例如,在中文字符中常常出现上述的“连通字符”和“具有规定结构的字符”。图12示例性地示出了一些错误切分的字符。鉴于以上情况,作为有效的辅助手段,当文档图像中的文本段或文本行/列包括宽度基本上相互一致的字符时,平均字符宽度(ACW)常常被用于进一步切分连通字符以及合并具有规定结构的字符的各部分。具体地,对于连通字符,基于图像的切分方法(例如投影,轮廓或相邻列的黑像素连通度等)可能能够通过调整它们的阈值来检测切分点。但是,即便如此,也出现错误的切分点。在很多情况下,正确的切分点只是所有被检测的切分点中的一小部分。如果不加考虑地处理所有的切分点,那么OCR的速度将急剧降低。此时,平均字符宽度可以对于切分点的数量和它们的位置进行粗略的估计,并且,很多错误的切分点将被放弃。这样,可以大大地提高OCR的速度。 ...
【技术保护点】
一种用于确定字符组的平均字符宽度的方法,所述方法包括:第一平均字符宽度得到步骤,通过第一平均字符宽度计算方法得到字符组的第一平均字符宽度;置信度得到步骤,通过置信度计算方法得到第一平均字符宽度的置信度;以及平均字符宽度确定步骤,根据第一平均字符宽度的置信度来确定字符组的平均字符宽度是等于第一平均字符宽度还是第二平均字符宽度,其中,所述第二平均字符宽度是通过不同于第一平均字符宽度计算方法的第二平均字符宽度计算方法得到的。
【技术特征摘要】
1.一种用于确定字符组的平均字符宽度的方法,所述方法的特征在于包括:切分步骤,切分字符组以得到字符备选作为切分结果;第一平均字符宽度得到步骤,通过第一平均字符宽度计算方法得到字符组的第一平均字符宽度;置信度得到步骤,通过第一置信度计算方法得到第一平均字符宽度的置信度;以及平均字符宽度确定步骤,根据第一平均字符宽度的置信度来确定字符组的平均字符宽度是等于第一平均字符宽度还是第二平均字符宽度,其中,所述第二平均字符宽度是通过不同于第一平均字符宽度计算方法的第二平均字符宽度计算方法得到的,其中,第一置信度计算方法包括以下步骤:以所述第一平均字符宽度为中心设定字符宽度的范围作为第一范围;从所述切分结果中选择宽度在第一范围内的字符备选;以及计算所选字符备选的宽度的平均值与所述第一平均字符宽度的比作为所述第一平均字符宽度的置信度。2.根据权利要求1所述的方法,其中,所述第一平均字符宽度计算方法包括:计算所述切分结果中的字符备选的宽度的平均值作为字符组的第一平均字符宽度。3.根据权利要求1所述的方法,其中,所述第一平均字符宽度计算方法包括:计算字符组的行高与第一特定因子的乘积作为字符组的第一平均字符宽度。4.根据权利要求1所述的方法,其中,第二平均字符宽度计算方法包括:设定字符宽高比的范围作为第二范围;选择所述切分结果中字符宽高比处于第二范围内的字符备选;以及计算所选字符备选的宽度的平均值作为字符组中的字符的第二平均字符宽度。5.根据权利要求1所述的方法,其中,所述第二平均字符宽度计算方法包括:在所述切分结果的字符备选数量大于或等于第一阈值的情况下,设定字符宽高比的范围作为第三范围;选择所述切分结果中字符宽高比处于第三范围内的字符备选;得到所选字符的宽度的平均值作为字符组中的字符的第三平均字符宽度;通过第二置信度计算方法得到第三平均字符宽度的置信度;以及根据第三平均字符宽度的置信度,确定第二平均字符宽度是等于第一平均字符宽度还是等于第三平均字符宽度。6.根据权利要求1所述的方法,其中,所述第二平均字符宽度计算方法包括:在字符组具有两个相邻字符组的情况下,通过第二置信度计算方法得到所述两个相邻字符组中的字符的平均字符宽度的置信度,并以所述两个相邻字符组之中具有较大的平均字符宽度的置信度的一个相邻字符组作为所选相邻字符组;以及在字符组具有一个相邻字符组的情况下,以这一个相邻字符组作为所选相邻字符组并且通过第二置信度计算方法得到该所选相邻字符组中的字符的平均字符宽度的置信度;得到字符组的行高与所选相邻字符组的行高之间的差值;如果所述差值大于或等于第二阈值,则将第一平均字符宽度设为第二平均字符宽度;否则通过第一平均字符宽度与所选相邻字符组中的字符的平均字符宽度的加权平均来得到第四平均字符宽度;以及根据所选相邻字符组中的字符的平均字符宽度的置信度,确定第二平均字符宽度是等于第一平均字符宽度还是等于第四平均字符宽度。7.根据权利要求1所述的方法,其中,所述第二平均字符宽度计算方法包括:通过将字符组的行高乘以第二特定因子得到第五平均字符宽度;在所述切分结果的字符备选数量小于第三阈值的情况下,将第五平均字符宽度设为第二平均字符宽度,否则通过第二置信度计算方法得到第五平均字符宽度的置信度;以及根据第五平均字符宽度的置信度,确定第二平均字符宽度是等于第一平均字符宽度还是等于第五平均字符宽度。8.根据权利要求5~7中的任一项所述的方法,其中,对于特定平均字符宽度,所述第二置信度计算方法包括:以所述特定平均字符宽度为中心设定字符宽度的范围作为第三范围;从所述切分结果中选择宽度在第三范围内的字符备选;以及计算所选字符备选的宽度的平均值与所述特定平均字符宽度的比作为所述特定平均字符宽度的置信度。9.根据权利要求5~7中的任一项所述的方法,其中,对于特定平均字符宽度,所述第二置信度计算方法包括:根据所述切分结果中的字符备选的宽度,通过聚类算法将所述切分结果中的字符备选聚类到不同的组;计算各组内的字符备选的宽度的平均值作为该组中的字符备选的平均字符宽度;向各组中的字符备选分配权重并且计算各组的加权后的字符备选数量;从各组中选择加权后的字符备选数量最大的一个组作为所选组;以及计算所选组中的字符备选的平均字符宽度与所述特定平均字符宽度之比作为所述特定平均字符宽度的置信度。10.根据权利要求9所述的方法,其中,向各组中的字符备选分配权重包括:对于各组中的每个字符备选,如果在作为切分点的两个边界处的黑像素投影均为波谷,则向该字符备选分配大于1且小于2的权重;而如果在作为切分点的两个边界处的黑像素投影不是均为波谷,则向该字符备选分配大于0且小于1的权重。11.根据权利要求5~7中的任一项所述的方法,其中,对于特定平均字符宽度,所述第二置信度计算方法包括:以所述特定平均字符宽度为中心设定平均字符宽度的范围作为第四范围;从所述切分结果中选择宽度在第四范围内的字符备选作为第三字符备选组,并且计算所述第三字符备选组的字符备选数量作为第三字符备选数量;根据所述特定平均字符宽度,将所述切分结果中宽度比第四范围的上限大的字符备选切分成字符备选和片段,并将切分的片段与宽度比第四范围的下限小的字符备选进行组合以形成新的字符备选;从所述新的字符备选中选择宽度在第四范围内的字符备选作为第四字符备选组,并计算所述第四字符备选组的字符数量作为第四字符备选数量;以及计算第三字符备选数量及第四字符备选数量之和与所述切分结果的字符备选数量之比作为所述特定平均字符宽度的置信度。12.一种用于对字符组进行切分的方法,其特征在于包括:使用根据权利要求1~11中的任一项所述的方法来确定字符组的平均字符宽度,以及根据字符组的平均字符宽度来对字符组进行字符切分和合并。13.一种用于确定字符组的平均字符宽度的装置,所述装置的特征在于包括:切分单元,...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。