当前位置: 首页 > 专利查询>微软公司专利>正文

经历光学字符识别的图像的页面布局确定制造技术

技术编号:7978464 阅读:165 留言:0更新日期:2012-11-16 05:35
提供用于识别包括文本区域的图像的页面布局的方法和系统。文本区域将要经历光学字符识别(OCR)。该系统包括:输入组件,其接收包括词的输入图像,其中围绕所述词已形成边界框;以及文本识别组件,其将这些词分组到多个文本区域。读取行组件将每一个文本区域内的词分组到读取行。文本区域排序组件根据文本区域的读取顺序来对这些文本区域进行排序。

【技术实现步骤摘要】
【国外来华专利技术】经历光学字符识别的图像的页面布局确定
技术介绍
光学字符识别(OCR)—般是在标准编码方案中基于计算机的文本图像转换成数字形式作为机器可编辑文本。这种处理免除将文档手动键入计算机系统的需求。OCR处理通常通过利用诸如光学扫描仪之类的设备获得承载印刷文本消息的物理文档的电子文件并扫描文档来开始。这样的设备产生原始文档的电子图像。输出图像随后被提供给计算机或其他处理设备,并处理扫描文档的图像,以区分图像和文本并确定什么字母表示在亮区和暗区中
技术实现思路
包含文本的文档可以利用许多不同类型的布局在页面上进行安排。例如,文本可以安排在多个列中,并且图像可以穿插在文本的不同区域之间或甚至散布在文本列内。为了准确地执行OCR处理并保留原有的页面布局,重要的是在文档正在经历OCR时确定这种布局以及在那种布局内文本的读取顺序。在一种实现方式中,提供用于识别包括文本区域的图像的页面布局的方法。该方法通过接收包括词(word)的输入图像来开始,其中围绕词已形成边界框(bounding box)。这些词被分组(group)到多个文本区域。每一个文本区域内的词随后被分组到读取行。这些文本区域根据其读取顺序来排序。在一种特别实现方式中,通过首先识别一个或多个位于文本区域之间的空白区域(white space region),将这些词分组到多个文本区域。提供这个概述部分来以简化的形式介绍下面在详细描述部分中进一步描述的概念的选择。这个概述部分并不打算标识所请求保护主题的关键特征或基本特征,也不打算用作辅助手段来确定所请求保护的主题的范围。附图说明图I显示用于光学字符识别的系统的一个说明性示例。图2和3显示根据读取顺序被表示为文本区域Tl和T2的页面上的文本区域的示例。图4-10显示可以利用在这里描述的方法、技术和系统来确定的页面布局的说明性示例。图11是显示用于识别包括文本区域的图像的页面布局的方法的一个示例的流程图。图12显示用于在文档上定义矩形(或空白矩形或文本矩形)的坐标系统。图13显示这样的空白候选种子的示例。图14示出通过扩大种子以覆盖其右侧的图像来合并空白种子的处理。图15显示扩大和缩小空白矩形的处理。图16是用于说明一种用于识别文本区域的方法的页面布局的示例。图17是用于说明另一种用于识别文本区域的方法的页面布局的示例。图18显示具有多个列与页眉和页脚的页面布局的示例。图19显示可以执行用于识别包括文本区域的图像的页面布局的方法的图像处理系统的一个示例。具体实施方式 图I显示用于光学字符识别(OCR)的系统5的一个说明性示例,其包括生成文档15的图像的数据捕获装置(例如,扫描仪10)。扫描仪10可以是基于成像器的扫描仪,其利用电荷耦合器件作为图像传感器来生成图像。扫描仪10处理图像来生成输入数据,并且将输入数据传送到处理装置(例如,OCR引擎20),用于图像内的字符识别。在这个特别示例中,OCR引擎20被并入扫描仪10中。然而,在其他示例中,OCR引擎20可以是单独的单元诸如独立的单元或被并入诸如PC、服务器等等之类的另一设备中的单元。如果能够确定正确的页面布局(例如,文本区域的几何形状以及文本区域内的行)以及文档的读取顺序,能够显著改善OCR处理的精度。除了整体识别精度之外,这些布局元素的成功检测对于在所产生的输出文档中保留原始布局具有显著的影响。如下详细描述的,呈现用于正确确定文本区域的读取顺序以及文本区域中词的分组(grouping)的方法。文本区域可以粗略地被定义为包含能够被分组在文本行中的所有词边界框的通常为矩形的最大区域,其中文本行在基于其垂直位置进行排序时反映在上述矩形中的读取顺序。文档中的读取顺序利用文本区域的顺序并且利用在每一个文本区域内的行的顺序来给定。图2和3显示根据读取顺序被表示文本区域Tl和T2的页面上的文本区域的示例。图2中的文档也包括非文本图像11。空白矩形可以被定义为不与任何词边界框相交的最大词间矩形,其是确定包含给定词的图像部分的矩形。下述的处理基于词的边界框将词分组到行。更具体地,词基于它们之间的距离、它们的相对垂直位置及其边界框的高度而被分组到行。这些行随后被分组到文本区域,并且在给定区域内的读取顺序利用这些行的垂直顺序来确定。文档的读取顺序利用与文本的自然流相对应的文本区域的序列来给定。该处理能够应用于简单和复杂二者的页面布局。在图4-10中显示这样的页面布局的示例。这种处理能够利用在图11所示的流程图中示出的步骤序列来概述。首先,在步骤110,检测文本区域。在每一个文本区域内,词在步骤120被分组到读取行。文本区域在步骤130被精炼并在步骤140根据读取顺序来排序。文本区域检测 文本检测以词之间的间距(spacing)为基础。它利用这样的事实,即,例如,列间的间距通常宽于词间的间距并且文本区域表现出一些规律性,诸如对齐。为了检测文档上的文本区域,首先计算空白矩形,其将形成区域间空间。在图12中显示将用于在文档上定义矩形(或空白矩形或文本矩形)的坐标。原点将被假定为位于文档的顶部右边缘上。当然,这些坐标用于说明的目的。通常,可以采用任何合适的坐标系统。计算空白矩形的处理通过选择是候选中间区域(interspace region)的空白种子来开始。为了有资格作为种子,词间空间必须具有大于某个阈值的宽度,同时也能够在高度方面被扩大。通过(从左到右和从顶到底)对词进行排序来识别种子。随后,在其垂直投影重叠的两个词边界框Wi和W之间建立空白候选种子 WhileRectleft = min(i.v ix|lltf Wri^hl) WhiteRectrcahl = niax(ivk ”WhiteRealjtp = niin(w/f,|)(iv/ p) WhiieReclbtittmn =40ff_) 其中是词边界框i的最右侧边界的坐标。这些边界框的其他边界以类似方式来定义。在图13中显示这样的空白候选种子wR的示例。最后,在已确定空白候选种子之后,与词边界框重叠的空白候选种子被除去。 计算空白候选种子的替代方式是为每一个词边界框找到其右侧最近的相邻边界框(其也垂直重叠)并计算空白作为这两个词之间的空间。保证所产生的空白矩形不与任何其他词边界框相交,这是因为它已被挑选作为在一个词边界框与其右侧最近的词边界框之间的空间。一旦获得一组空白候选种子,每一个被垂直地向上和向下扩大可配置的量。S卩,每一个候选种子的顶部边界和底部边界的坐标将如下进行改变whiteRectUip = WhiteRecttllip — a height (hereWhiieRectlmttmn = whiieRecttmtlm +. or height其中a是可配置常数,并且是已被预先计算为页面属性的平均词边界框高度。扩大的空白候选种子被过滤,并且只有那些不与任何词边界框相交的种子才被保留作为空白种子。这些空白种子随后经历另一扩大处理。首先,如果空白种子具有重叠区域,则合并这些空白种子。接下来,假定所产生的矩形种子也不与任何词边界框重叠,则这些种子水平地被扩大,以覆盖任何图像。作为示例,图14显示能够被扩大以覆盖其右侧图像的空白种子。所产生的空白矩形被再一次垂直地向上和向下扩大,而如果所产生的空本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:M琴波瓦S加利奇M乌德利亚
申请(专利权)人:微软公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利