通过从输入中提取特征以便定位中断,以及随后将这些中断归类到包括单词间中断和字符间中断的两种中断分类之一,执行OCR处理中的行分割,从而检测出单词在输入文本行图像中的位置。然后,包含检测到的单词边界框的以及给定中断属于所识别分类的概率的输出可被提供给下游的OCR或其他组件,以便进行后期处理。非常有利的是,通过将行分割处理缩减成特征提取处理,可以在不丧失一般性的情况下降低行分割任务的复杂度,其中所述特征包括:每个中断的位置,中断特征数量以及中断分类。
【技术实现步骤摘要】
【国外来华专利技术】检测文本行图像中的断字位置
技术介绍
光学字符识别(OCR)是一种基于计算机来将文本图像转换成数字形式的处理,该数字形式是通常采用标准编码方案的机器可编辑文本。这种处理消除了将文档手动键入计算机系统的需要。由于图像质量低劣以及扫描处理引入的瑕疵等等,有可能出现很多不同的问题。例如,常规的OCR引擎可以与扫描文本页面的平面扫描仪耦合。由于该页面是对着扫描仪的扫描表面齐平放置的,因此,扫描仪产生的图像通常会呈现均匀的对比度和光照度、减小的倾斜和失真以及很高的分辨率。由此,OCR引擎能够很容易将图像中的文本转换成机器可编辑文本。然而,当图像在对比度、光照度、倾斜等方面的质量低劣时,OCR引擎的性能有可能降低,并且,由于要对图像中的所有像素进行处理,因此,处理时间有可能增力口。举例来说,此类情形有可能在从书籍中获取图像或者用基于图像的扫描仪产生图像的 时候出现,其中的原因在于在这些情况下,文本/图片是在光照度改变的情况下从某个距离以及变化的方位扫描的。在扫描质量相对较差的文本页面的时候,即便扫描处理性能良好,OCR引擎性能也有可能降低。本
技术介绍
部分是为了介绍关于后续
技术实现思路
和具体实施方式部分的简要背景而被提供的。本
技术介绍
部分既不打算用于帮助确定所要求保护的主题的范围,也不应被视为是将所要求保护的主题局限于解决上文所给的任一或所有缺陷或问题的实施方式。
技术实现思路
通过从输入中提取特征以便定位中断(break),以及随后将这些中断归类到包括单词间中断和字符间中断在内的两种中断分类之一,来执行OCR处理中的行分割,从而检测出单词在输入文本行图像中的位置。然后,包含了检测到的单词边界框的输出以及给定中断属于所识别分类的概率可被提供给下游的OCR或其他组件,以便进行后期处理。非常有利的是,通过将行分割处理缩减成特征提取,可以在不丧失一般性的情况下降低行分割任务的复杂度,其中所述特征包括每个中断的位置,中断特征数量以及中断分类。在说明性示例中,实现特征化(f eaturi zat ion )组件和中断分类器的行分割引擎是被配置在一种无单词识别能力的架构中的。在该架构中,行分割引擎被置于预处理级(例如,所述预处理级从扫描文档中产生输入的灰度级文本行图像)与独立的单词识别器之间,其中单词识别器通常不考虑校正分类器产生的任何单词间中断差错。在一个替换架构中,行分割引擎和单词识别器是整合部署的。在后一个架构中会从对于给定文本行检测到的中断中产生一个断字(word break)网格(lattice)。该网格中的每个单词都被单词识别器检测,并且可以提取出单词识别特征,例如单词置信度、字符置信度、单词频率、语法及单词长度。然后,断字定向搜索(beam search)引擎使用所提取的单词和中断特征,以便通过在决策过程中使用比独立架构更多的信息来选择更优的行分割。从文本行图像中可以提取不同的特征组合,以便用于特征化处理,这其中包括绝对特征,相对行特征,相对中断特征,相对笔墨特征,相对笔墨-笔墨特征,相对中断邻近度特征,以及单词识别特征。多种中断分类器都是可以使用的,这其中包括判定树分类器,AdaBoost分类器,群集分离器,神经网络分类器,以及迭代梯度下降分类器。本
技术实现思路
是为了以简化形式介绍精选概念而被提供的,在以下的具体实施方式部分中将会进一步描述这些概念。本
技术实现思路
的目的既不是确定所要求保护主题的关键特征或基本特征,也不是用来帮助确定所要求保护的主题的范围。附图说明图I显示了说明性的行分割引擎的简化功能框图; 图2显示了具有“笔墨”投影的说明性中断分类示例; 图3显示了可以在当前的行分割处理的特征化阶段中使用的特征的说明性分类; 图4显示了说明性的绝对特征集合; 图5显示了所有中断宽度的说明性分布; 图6显示了基线、平均线以及用于例示单词的X高度的图形表示; 图7显示了笔墨-笔墨特征集合的说明性示例; 图8显示了说明性的笔墨-笔墨宽度分布; 图9显示了说明性的相对行特征集合; 图10显示了说明性的相对中断特征集合; 图11显示了说明性的相对笔墨特征集合; 图12显示了说明性的相对笔墨-笔墨特征集合; 图13显示了说明性的相对中断邻近度特征集合; 图14显示了说明性的单词识别特征集合; 图15显示了说明性的分类器集合,其中一个或多个分类器可以与图3所示特征的一个或多个子集一起使用; 图16显示了例如如OCR系统中那样由行分割引擎向外部的单词识别器提供输出的第一说明性架构; 图17显示了整合部署了行分割引擎和单词识别器的第二说明性架构;以及图18是个人计算机(PC)或服务器之类的可以实现当前的行分割处理的说明性计算机系统的简化框图。在附图中,相同的参考数字指示相同的元件。具体实施例方式图I显示了一个说明性的高级行分割架构100,其中该图高亮显示了这里的行分割技术的特征。在说明性示例中,行分割技术可以用架构100中的方框110所代表的引擎来实现,其中所述架构包括特征化组件120以及分类器130,并且通常来说,这些组件分别实现了特征化和分类算法。如所示,文档行分割引擎110的输入是经过预处理的单个文本行的灰度级图像140。所述输入图像经过了必要程度的预处理,以便消除或移除背景颜色变化并用白色将其替换。前景色也被称为“笔墨”,它会被转换成灰度级。行分割引擎的输出是检测到的一个或多个单词150的集合,这其中包含了通常用边界框160表示的单词位置(也就是说,每个个别的单词都具有一个边界框)以及用于每一个输出边界框的相关联的置信度因子170。与必须为给定文本行图像中的每个单词直接检测单词边界框的坐标不同,这里的行分割技术的功能是将每个中断归入两个中断分类之一。在文本行图像中的某个位置,如果在该位置可以在没有遇到(即“接触笔墨”的情况下绘制一条从该行的顶到底的直线,则表明在该位置存在一个中断。一种用于说明中断含义的替换方式是垂直投影所述笔墨。在这种情况下,笔墨投影为空(也就是没有投影笔墨)的位置将会存在中断。在图2中图示了这种替换说明。顶部的行包括例示的文本行图像210。中间的行显示了笔墨投影220,底部的行则显示了笔墨投影为空的中断230。正如在图2中能观察到的,只有两个中断分类,即单词间中断(用参考数字240来代表)和字符间中断(用参考数字250来代表)。非常有利的是,通过提取包括每个中断的位置和中断特征数量在内的文本行图像特征,可以降低行分割问题的复杂度。此外,经验显示,使用这里的行分割处理不会导致丧志一般性。相应地,图I的行分割引擎110是在特征化和分类这两个阶段中实现中断分类 的,并且将会返回每个中断的目标分类以及给定中断属于该目标分类的概率。举例来说,该技术可以应用于拉丁语、西里尔字母、希腊语以及东亚手写体。应该指出的是,并不是所有字符间中断250都必须存在,以便使用这里的技术来实现令人满意的行分割,而是只有相对较高的百分比(例如试验确定的99. 5%)的单词间中断240。在被称为“软断字”的后期处理步骤中可以解决这种行分割处理产生的不精确度,例如假阳性单词间误分类,其中所述步骤是作为单词识别器组件的一部分实现的。以下将转而讨论本技术的特征化和分类阶段。特征化——特征化可被定义成是从输入的文本本文档来自技高网...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】...
【专利技术属性】
技术研发人员:A乌泽拉奇,B德雷塞维奇,S加利奇,B拉达科维奇,
申请(专利权)人:微软公司,
类型:
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。