用于确定词间距的方法和设备以及用于分词的方法和系统技术方案

技术编号:14290578 阅读:61 留言:0更新日期:2016-12-25 20:50
本公开涉及用于确定词间距的方法和设备以及用于分词的方法和系统。一种用于确定文档图像中的词间距的方法包括:划分步骤,将文档图像划分为文本图像块,然后将文本图像块划分为行图像区域,并且将每个行图像区域划分成字符或连通字符区域;第一获得步骤,对于至少一个行图像区域,通过聚类方法得到第一词间距阈值,由此,在至少一个行图像区域中的各间距之中,大于该第一词间距阈值的间距被称为初始词间距,小于或等于该第一词间距阈值的间距被称为初始字符间距;和调整步骤,根据该文档图像中的上下文信息,调整所述第一词间距阈值以获得第二词间距阈值,以便根据该第二词间距阈值来确定至少一个行图像区域中的最终词间距。

【技术实现步骤摘要】

本专利技术一般地涉及文档的处理,更具体地,涉及用于确定词间距的方法和设备以及用于分词的方法和系统
技术介绍
词分割是OCR的一个重要步骤。常规地,词分割方法相当简单,因为例如通过将行中的间距聚类成两类,即“字符间距”和“词间距”,而容易将行中的词彼此分开。这里,间距表示一对相邻字符或连通字符区域之间的空白区的长度。但是,仅使用聚类方法不能将所有间距分类到正确的组。在有些情况下,一些词间距被错误地分类为字符间距。在另外一些情况下,一些字符间距被错误地分类为词间距。例如,这三个专利,即,US 5321770(“Method for determining boundaries of words in text”,1991年11月19日提交)、US 5557689(“Optical word recognition by examination of word shape”,1995年6月1日提交)和US 6249604(“Method for determining boundaries of words in text”,2001年6月19日提交)使用相同的方法来确定词边界。它们使用中值滤波来创建新的行图像,以使得可以用黑像素填充字符之间的较小空白,并且,词成为像素的单个连通集。在上面这三个专利描述的方法中,需要在中值滤波之后创建新的图像。该方法需要更多内存来保存临时图像。另外,中值滤波方法需要处理行图像中的所有像素,这花费更多的运行
时间。此外,对于一些mono-space字体,字符之间的空白大,中值滤波方法不能去除字符之间的空白。另外,美国专利7471826(“Character segmentation by slices”,国际商业机器公司,2008年3月31提交)描述了一种词分割方法。在上述该专利描述的方法中,分别针对mono-space字体和成比例的字体计算间距阈值。另外,其中没有描述确定成比例的字体类型的字符间距的详细方式。
技术实现思路
鉴于以上,需要能够提高文档图像中的字符和词的识别精度和/或能够减少执行词分割时所需的存储资源的这样的用于确定词间距的方法和设备以及用于分词的方法和系统。本专利技术旨在解决上面所述的问题。本专利技术的一个目的是提供用于确定词间距的方法和设备以及用于分词的方法和系统以解决以上问题之一。通常,通过例如扫描获得的文档图像将先被倾斜校正和二值化。然后,例如使用布局分析方法将文档图像划分成文本块。将文本块图像划分成文本行图像。在文本行图像区域中,例如通过使用黑像素投影或连通域(connected-component)信息,将字符和/或连通字符区域分出。在本专利技术中,对字符或连通字符区域之间的间距计数。然后,可以使用例如聚类方法来计算用于分类词间距和字符间距的阈值,并且可以使用字符的上下文信息和间距来调整词间距阈值。具体地,根据本公开的第一方面,提供一种用于确定文档图像中的词间距的方法,所述方法包括:划分步骤,将文档图像划分为文本图像块,然后将文本图像块划分为行图像区域,并且将每个行图像区域划分成字符或连通字符区域;第一获得步骤,对于至少一个行图像区域,通过聚类方法得到第一词间
距阈值,由此,在至少一个行图像区域中的各间距之中,大于该第一词间距阈值的间距被称为初始词间距,小于或等于该第一词间距阈值的间距被称为初始字符间距;和调整步骤,根据该文档图像中的上下文信息,调整所述第一词间距阈值以获得第二词间距阈值,以便根据该第二词间距阈值来确定至少一个行图像区域中的最终词间距。根据本公开的第二方面,提供一种分词方法,包括:词间距确定步骤,通过使用上述用于确定文档图像中的词间距的方法来确定文档图像的行图像区域中的词间距;以及分割步骤,根据所确定的词间距,从所述行图像区域中分割词。根据本公开的第三方面,提供一种被配置为确定文档图像中的词间距的设备,所述设备包括:划分部件,被配置为将文档图像划分为文本图像块,然后将文本图像块划分为行图像区域,并且将每个行图像区域划分成字符或连通字符区域;第一获得部件,被配置为对于至少一个行图像区域,通过聚类方法获得第一词间距阈值,由此,在至少一个行图像区域中的各间距之中,大于该第一词间距阈值的间距被称为初始词间距,小于或等于该第一词间距阈值的间距被称为初始字符间距;和调整部件,被配置为根据该文档图像中的上下文信息,调整所述第一词间距阈值以获得第二词间距阈值,以便根据该第二词间距阈值确定至少一个行图像区域中的最终词间距。根据本公开的第四方面,提供一种分词系统,包括:上述被配置为确定文档图像中的词间距的设备;以及分割设备,被配置为根据由所述设备确定的文档图像的行图像区域中的词间距,从所述行图像区域中分割词。这样,本专利技术能够提高文档图像中的字符和词的识别精度和/或能够减少执行词分割时所需的存储资源。参照附图阅读示例性实施例的以下描述,本专利技术的其他特性特征和优点将变得清晰。附图说明并入到说明书中并且构成说明书一部分的附图示出了本专利技术的实施例,并且与描述一起用于解释本专利技术的原理。在这些附图中,类似的附图标记用于表示类似的项。图1是示出能够实现本专利技术的实施例的计算机系统的示例性硬件配置的框图。图2示例性地示出根据本专利技术的实施例用于确定文档图像中的词间距的方法的流程图。图3示例性地示出通过聚类方法获得的词间距划分结果。图4示例性地示出根据本专利技术的实施例用于实现第一词间距阈值的调整的示例性方式的流程图。图5示例性地示出根据本专利技术的实施例用于实现第一词间距阈值的调整中的受怀疑区域确定步骤的示例性方式。图6示例性地示出根据本专利技术的实施例用于实现第一词间距阈值的调整中的受怀疑区域确定步骤的示例性方式的流程图。图7示例性地示出根据本专利技术的实施例用于实现第一词间距阈值的调整中的受怀疑区域确定步骤的示例性方式。图8示例性地示出可以在受怀疑区域确定步骤中可选地使用的间距直方图。图9示例性地示出可以在受怀疑区域确定步骤中可选地使用的间距直方图的另一个例子。图10示例性地示出可以在受怀疑区域确定步骤中可选地使用的再一个间距直方图。图11示例性地示出根据本专利技术的实施例用于实现第一词间距阈值的调整中的第二获得步骤的示例性方式。图12(a)、图12(b)和图12(c)分别示例性地示出行图像、间距直方图和受怀疑词间距的位置,图12(d)示出了一些字符
例子以示例它们的分类。图13(a)和图13(b)分别示例性地示出通过使用前一字符和后一字符的间距和类型信息来判断间距的例子。图14示例性地示出根据本专利技术的实施例的分词方法的流程图。图15示例性地示出根据本专利技术的实施例的被配置为确定文档图像中的词间距的设备的框图。图16示例性地示出调整部件的框图。图17示例性地示出根据本专利技术的实施例的分词系统的框图。具体实施方式应当注意,以下的实施例并不意欲限制所附权利要求的范围,并且在实施例中描述的特征的所有组合对于解决本专利技术的技术问题并不一定是必需的。以下描述的本专利技术的实施例中的每一个都可单独地实施,或者在必要的情况下或在单个实施例中组合来自各个实施例的要素或特征是有益的情况下作为多个实施例或者它们的特征的组合来实施。由于图中类似的附图标记用于表示类似的元件,因此,将不在本文档来自技高网
...
用于确定词间距的方法和设备以及用于分词的方法和系统

【技术保护点】
一种用于确定文档图像中的词间距的方法,所述方法包括:划分步骤,将文档图像划分为文本图像块,然后将文本图像块划分为行图像区域,并且将每个行图像区域划分成字符或连通字符区域;第一获得步骤,对于至少一个行图像区域,通过聚类方法得到第一词间距阈值,由此,在至少一个行图像区域中的各间距之中,大于该第一词间距阈值的间距被称为初始词间距,小于或等于该第一词间距阈值的间距被称为初始字符间距;和调整步骤,根据该文档图像中的上下文信息,调整所述第一词间距阈值以获得第二词间距阈值,以便根据该第二词间距阈值来确定至少一个行图像区域中的最终词间距。

【技术特征摘要】
1.一种用于确定文档图像中的词间距的方法,所述方法包括:划分步骤,将文档图像划分为文本图像块,然后将文本图像块划分为行图像区域,并且将每个行图像区域划分成字符或连通字符区域;第一获得步骤,对于至少一个行图像区域,通过聚类方法得到第一词间距阈值,由此,在至少一个行图像区域中的各间距之中,大于该第一词间距阈值的间距被称为初始词间距,小于或等于该第一词间距阈值的间距被称为初始字符间距;和调整步骤,根据该文档图像中的上下文信息,调整所述第一词间距阈值以获得第二词间距阈值,以便根据该第二词间距阈值来确定至少一个行图像区域中的最终词间距。2.根据权利要求1所述的方法,其中,所述调整步骤包括:受怀疑区域确定步骤,基于所述第一词间距阈值来确定由至少一个行图像区域中的一部分间距构成的至少一个受怀疑区域;和第二获得步骤,根据作为文档图像中的上下文信息的以下项之一,从所述至少一个受怀疑区域获得第二词间距阈值:1)行图像区域中的前面的字符和/或后面的字符的间距;和2)行图像区域中的前面的字符和/或后面的字符的类型及间距。3.根据权利要求2所述的方法,其中,所述受怀疑区域
\t确定步骤包括以下步骤中的至少之一:左侧受怀疑区域确定步骤,对于至少一个行图像区域,从所述初始字符间距选择特定初始字符间距作为所述第一词间距阈值的左侧受怀疑区域的左边界和右边界,由此确定所述第一词间距阈值的左侧受怀疑区域;和右侧受怀疑区域确定步骤,对于至少一个行图像区域,从所述初始词间距选择特定初始词间距作为所述第一词间距阈值的右侧受怀疑区域的左边界和右边界,由此确定所述第一词间距阈值的右侧受怀疑区域。4.根据权利要求2所述的方法,其中,所述受怀疑区域确定步骤包括以下步骤:基于所述第一词间距阈值,对于通过使用聚类方法获得的累积直方图进行拆分而得到两个新的累积直方图;通过使用聚类方法对于所述两个新的累积直方图进行聚类,而获得两个新的阈值;和将所述第一词间距阈值和所述两个新的阈值根据它们的大小而组成至少一个受怀疑区域,其中,该至少一个受怀疑区域能够包括左侧受怀疑区域和右侧受怀疑区域。5.根据权利要求4所述的方法,还包括:判断步骤,根据通过对于所述两个新的累积直方图进行聚类所获得的类间方差,判断各受怀疑区域是否为能够接受的。6.根据权利要求2所述的方法,其中,所述受怀疑区域确定步骤包括以下步骤中的至少之一:在针对至少一个行图像区域、通过使用聚类方法获得的以间距为横轴、间距的数量为纵轴的累积直方图上,从所述第一词间距阈值开始往左查找第一个其纵坐标不等于0的初始字
\t符间距而将该初始字符间距作为左侧受怀疑区域的右边界,并且从该右边界开始往左查找第一个作为局部极大值的初始字符间距作为左侧受怀疑区域的左边界;和在所述累积直方图上,从所述第一词间距阈值开始往右查找第一个其纵坐标不等于0的初始词间距而将该初始词间距作为右侧受怀疑区域的左边界,并且从该左边界开始往右查找第一个作为局部极大值的初始词间距作为右侧受怀疑区域的右边界。7.根据权利要求6所述的方法,还包括:判断步骤,根据以下项中的至少之一,判断各受怀疑区域是否为能够接受的:1)各受怀疑区域中出现的各间距的数量之和;2)各受怀疑区域中出现的间距之中的最大间距;和3)各受怀疑区域中出现的间距之中的最小间距。8.根据权利要求2所述的方法,其中,所述第二获得步骤包括以下步骤中的至少之一:1)对于处于左侧受怀疑区域内的作为受怀疑词间距的各初始字符间距,将其与作为文档图像中的一种上下文信息的行图像区域中的前面的字符和/或后面的字符的间距在大小上进行比较,或者,结合作为文档图像中的另一种上下文信息的行图像区域中的前面的字符和/或后面的字符的类型,将其与作为文档图像中的所述一种上下文信息的行图像区域中的前面的字符和/或后面的字符的间距在大小上进行比较,并且,根据比较结果来判断作为受怀疑词间距的所述各初始字符间距是否均属于词间距,在作为受怀疑词间距的所述各初始字符间距均属于词间距的情况下,将所述第一词间距阈值的左侧受怀疑区域的左边界用作所述第二词间距阈值;和2)对于处于右侧受怀疑区域内的作为受怀疑词间距的各初始词间距,将其与作为文档图像中的一种上下文信息的行图像区域中的前面的字符和/或后面的字符的间距在大小上进行比较,或者,结合作为文档图像中的另一种上下文信息的行图像区域中的前面的字符和/或后面的字符的类型,将其与作为文档图像中的所述一种上下文信息的行图像区域中的前面的字符和/或后面的字符的间距在大小上进行比较,并且,根据比较结果来判断作为受怀疑词间距的所述各初始词间距是否均属于词间距,在作为受怀疑词间距的所述各初始词间距均属于词间距的情况下,将所述第一词间距阈值的右侧受怀疑区域的右边界作为所述第二词间距阈值。9.一种分词方法,包括:词间距确定步骤,通过使用根据权利要求1~8中的任一项所述的方法来确定文档图像的行图像区域中的词间距;以及分割步骤,根据所确定的词间距,从所述行图像区域中分割词。10.一种被配置为确定文档图像中的词间距的设备,...

【专利技术属性】
技术研发人员:罗兆海李献
申请(专利权)人:佳能株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1