【技术实现步骤摘要】
本专利技术一般地涉及文档的处理,更具体地,涉及用于确定词间距的方法和设备以及用于分词的方法和系统。
技术介绍
词分割是OCR的一个重要步骤。常规地,词分割方法相当简单,因为例如通过将行中的间距聚类成两类,即“字符间距”和“词间距”,而容易将行中的词彼此分开。这里,间距表示一对相邻字符或连通字符区域之间的空白区的长度。但是,仅使用聚类方法不能将所有间距分类到正确的组。在有些情况下,一些词间距被错误地分类为字符间距。在另外一些情况下,一些字符间距被错误地分类为词间距。例如,这三个专利,即,US 5321770(“Method for determining boundaries of words in text”,1991年11月19日提交)、US 5557689(“Optical word recognition by examination of word shape”,1995年6月1日提交)和US 6249604(“Method for determining boundaries of words in text”,2001年6月19日提交)使用相同的方法来确定词边界。它们使用中值滤波来创建新的行图像,以使得可以用黑像素填充字符之间的较小空白,并且,词成为像素的单个连通集。在上面这三个专利描述的方法中,需要在中值滤波之后创建新的图像。该方法需要更多内存来保存临时图像。另外,中值滤波方法需要处理行图像中的所有像素,这花费更多的运行
时间。此外,对于一些mono-space字体,字符之间的空白大,中值滤波方法不能去除字符之间的空白。另外 ...
【技术保护点】
一种用于确定文档图像中的词间距的方法,所述方法包括:划分步骤,将文档图像划分为文本图像块,然后将文本图像块划分为行图像区域,并且将每个行图像区域划分成字符或连通字符区域;第一获得步骤,对于至少一个行图像区域,通过聚类方法得到第一词间距阈值,由此,在至少一个行图像区域中的各间距之中,大于该第一词间距阈值的间距被称为初始词间距,小于或等于该第一词间距阈值的间距被称为初始字符间距;和调整步骤,根据该文档图像中的上下文信息,调整所述第一词间距阈值以获得第二词间距阈值,以便根据该第二词间距阈值来确定至少一个行图像区域中的最终词间距。
【技术特征摘要】
1.一种用于确定文档图像中的词间距的方法,所述方法包括:划分步骤,将文档图像划分为文本图像块,然后将文本图像块划分为行图像区域,并且将每个行图像区域划分成字符或连通字符区域;第一获得步骤,对于至少一个行图像区域,通过聚类方法得到第一词间距阈值,由此,在至少一个行图像区域中的各间距之中,大于该第一词间距阈值的间距被称为初始词间距,小于或等于该第一词间距阈值的间距被称为初始字符间距;和调整步骤,根据该文档图像中的上下文信息,调整所述第一词间距阈值以获得第二词间距阈值,以便根据该第二词间距阈值来确定至少一个行图像区域中的最终词间距。2.根据权利要求1所述的方法,其中,所述调整步骤包括:受怀疑区域确定步骤,基于所述第一词间距阈值来确定由至少一个行图像区域中的一部分间距构成的至少一个受怀疑区域;和第二获得步骤,根据作为文档图像中的上下文信息的以下项之一,从所述至少一个受怀疑区域获得第二词间距阈值:1)行图像区域中的前面的字符和/或后面的字符的间距;和2)行图像区域中的前面的字符和/或后面的字符的类型及间距。3.根据权利要求2所述的方法,其中,所述受怀疑区域
\t确定步骤包括以下步骤中的至少之一:左侧受怀疑区域确定步骤,对于至少一个行图像区域,从所述初始字符间距选择特定初始字符间距作为所述第一词间距阈值的左侧受怀疑区域的左边界和右边界,由此确定所述第一词间距阈值的左侧受怀疑区域;和右侧受怀疑区域确定步骤,对于至少一个行图像区域,从所述初始词间距选择特定初始词间距作为所述第一词间距阈值的右侧受怀疑区域的左边界和右边界,由此确定所述第一词间距阈值的右侧受怀疑区域。4.根据权利要求2所述的方法,其中,所述受怀疑区域确定步骤包括以下步骤:基于所述第一词间距阈值,对于通过使用聚类方法获得的累积直方图进行拆分而得到两个新的累积直方图;通过使用聚类方法对于所述两个新的累积直方图进行聚类,而获得两个新的阈值;和将所述第一词间距阈值和所述两个新的阈值根据它们的大小而组成至少一个受怀疑区域,其中,该至少一个受怀疑区域能够包括左侧受怀疑区域和右侧受怀疑区域。5.根据权利要求4所述的方法,还包括:判断步骤,根据通过对于所述两个新的累积直方图进行聚类所获得的类间方差,判断各受怀疑区域是否为能够接受的。6.根据权利要求2所述的方法,其中,所述受怀疑区域确定步骤包括以下步骤中的至少之一:在针对至少一个行图像区域、通过使用聚类方法获得的以间距为横轴、间距的数量为纵轴的累积直方图上,从所述第一词间距阈值开始往左查找第一个其纵坐标不等于0的初始字
\t符间距而将该初始字符间距作为左侧受怀疑区域的右边界,并且从该右边界开始往左查找第一个作为局部极大值的初始字符间距作为左侧受怀疑区域的左边界;和在所述累积直方图上,从所述第一词间距阈值开始往右查找第一个其纵坐标不等于0的初始词间距而将该初始词间距作为右侧受怀疑区域的左边界,并且从该左边界开始往右查找第一个作为局部极大值的初始词间距作为右侧受怀疑区域的右边界。7.根据权利要求6所述的方法,还包括:判断步骤,根据以下项中的至少之一,判断各受怀疑区域是否为能够接受的:1)各受怀疑区域中出现的各间距的数量之和;2)各受怀疑区域中出现的间距之中的最大间距;和3)各受怀疑区域中出现的间距之中的最小间距。8.根据权利要求2所述的方法,其中,所述第二获得步骤包括以下步骤中的至少之一:1)对于处于左侧受怀疑区域内的作为受怀疑词间距的各初始字符间距,将其与作为文档图像中的一种上下文信息的行图像区域中的前面的字符和/或后面的字符的间距在大小上进行比较,或者,结合作为文档图像中的另一种上下文信息的行图像区域中的前面的字符和/或后面的字符的类型,将其与作为文档图像中的所述一种上下文信息的行图像区域中的前面的字符和/或后面的字符的间距在大小上进行比较,并且,根据比较结果来判断作为受怀疑词间距的所述各初始字符间距是否均属于词间距,在作为受怀疑词间距的所述各初始字符间距均属于词间距的情况下,将所述第一词间距阈值的左侧受怀疑区域的左边界用作所述第二词间距阈值;和2)对于处于右侧受怀疑区域内的作为受怀疑词间距的各初始词间距,将其与作为文档图像中的一种上下文信息的行图像区域中的前面的字符和/或后面的字符的间距在大小上进行比较,或者,结合作为文档图像中的另一种上下文信息的行图像区域中的前面的字符和/或后面的字符的类型,将其与作为文档图像中的所述一种上下文信息的行图像区域中的前面的字符和/或后面的字符的间距在大小上进行比较,并且,根据比较结果来判断作为受怀疑词间距的所述各初始词间距是否均属于词间距,在作为受怀疑词间距的所述各初始词间距均属于词间距的情况下,将所述第一词间距阈值的右侧受怀疑区域的右边界作为所述第二词间距阈值。9.一种分词方法,包括:词间距确定步骤,通过使用根据权利要求1~8中的任一项所述的方法来确定文档图像的行图像区域中的词间距;以及分割步骤,根据所确定的词间距,从所述行图像区域中分割词。10.一种被配置为确定文档图像中的词间距的设备,...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。