当前位置: 首页 > 专利查询>微软公司专利>正文

光学字符识别中的文档页分割制造技术

技术编号:8687954 阅读:207 留言:0更新日期:2013-05-09 07:48
在光学字符识别过程中的页分割被执行来检测文本对象和/或图像对象。在输入的灰度图像中的文本对象是通过选择用于自然行的候选者而被检测的,所述候选者是具有由基线(大多数文本字符“坐”在该线以上)和主线(大多数字符“挂”在该线以下)的值规定的相似垂直统计量的、水平相邻的已连成分的集合(即,图像像素的子集,其中来自所述集合的每个像素与来自该集合的所有的剩余像素相连接)。通过检查任何内含的规则性,而对自然行执行二元分类,以便把它们分类为文本或非文本的。图像对象是通过使用检测到的文本规定背景来检测图像的背景而被间接检测的。一旦背景被检测,剩余的东西(即,非背景)就是图像对象。

【技术实现步骤摘要】
【国外来华专利技术】光学字符识别中的文档页分割
技术介绍
光学字符识别(OCR)是文本的图像到如机器可编辑文本的数字形式的基于计算机的转化,通常是按照标准编码方案的。这个过程消除了对将文档人工打字输入到计算机系统的需要。由于图像质量差、由扫描过程引起的缺陷等等,会引发许多不同的问题。例如,常规的OCR引擎可以被耦合到用来扫描文本的页的平板扫描仪。因为页被相对扫描仪的扫描面齐平地放置,所以由扫描仪生成的图像典型地呈现均匀的对比度和照度、减小的扭曲和失真、以及高分辨率。因此,OCR引擎可以容易地把图像中的文本转化成机器可编辑的文本。然而,当图像在对比度、照度、扭曲等等方面具有较差的质量时,OCR引擎的性能可能会恶化,并且处理时间可能会由于对图像中的所有像素进行处理而增加。例如当图像是从书本得到时或当图像是由基于图像的扫描仪生成时,情形可能是这样,因为在这些情形下,文本/图片是从一定的距离、从变化的取向和在变化的照度下被扫描的。即使扫描过程的性能是好的,当质量相对较差的文本页被扫描时,OCR引擎的性能也可能恶化。这个背景被提供来介绍随后的概要和详细描述的概略的上下文。这个背景不打算用来帮助确定所要求保护的主题的范围,也不打算被看作为将所要求保护的主题限制为解决任何的或所有的上文给出的缺点或问题的实现。
技术实现思路
在OCR过程中的页分割(page segmentation)被执行来检测通常在文档中出现的对象,包括文本对象和图像对象。在输入的灰度图像中的文本对象是通过选择用于自然行(native line)的候选者而被检测的,所述候选者是具有由基线(大多数文本字符“坐”在该线以上)和主线(mean line)(大多数字符“挂”在该线以下)的值规定的相似垂直统计量的、水平相邻的已连成分(connected component)(即,图像像素的子集,其中来自该集合的每个像素与来自该集合的所有其余像素相连接)的集合。通过检查在自然行候选者中的任何内含的规则性,而对自然行候选者执行二元分类,以便把它们分类为文本或非文本的。图像对象是通过使用检测到的文本规定背景来检测图像的背景而被间接检测的。一旦背景被检测,剩余的东西(即,非背景)就是图像对象。在说明性例子中,自然行候选者是通过使用中心线追踪规程来构建自然行而被选择的。从灰度输入,边缘检测运算符的应用导致已连成分的识别。为每个已连成分找出水平邻居,并且分配分数以代表已连成分属于文本行的概率。通过使用水平邻居投票规程,而为每个已连成分估计中心线。以最大分数的已连成分作为种子开始,如果在右面的已连成分的估计的中心线与种子的中心线之间的差值小于某个阈值,则把右面的已连成分顺序加到自然行候选者。如果超过阈差值,或遇到在种子右面的最后的已连成分,则在左面重复把已连成分加到自然行候选者。当这个中心线追踪在左和右两面都完成时,一个自然行候选者产生。自然行候选者被传递到可被实施为机器可训练的分类器的文本分类器,以便执行候选者到文本行或非文本行的二元分类。分类器检查自然行候选者在“边缘空间”中的特征的内含的规则性,在“边缘空间”中每个像素被宣告为边缘或非边缘像素。如果自然行候选者具有规则的特征,诸如指示文本的边缘角度的分布,则分类器把该自然行候选者分类为文本。相反,不存在这样的特征规则性表明自然行候选者是非文本的且该候选者被丢弃。自然行候选者构建和分类的过程可以迭代地进行,直至所有的被检测的已连成分被确定为文本行的一部分或是非文本的。一旦文本的位置通过使用前述的文本对象检测而被确定,就通过首先降低文档的分辨率,以便滤掉典型地数量级小于图像对象(它们往往是相对较大的对象)的文本,来实施背景检测。在分辨率降低后仍旧存在的任何文本影响可以通过中值(median)滤波而被去除。背景的局部一致性的评估可以通过方差运算符的应用而被执行,所述方差运算符被安排来找出文档中的平坦区域。为了决定对于像素要被恰当地看作为背景像素,它需要多么平坦,检查作为检测到的文本的一部分的像素,因为文本背景被假设为规定图像背景。由于检测到的文本的位置是已知的,所以可以生成在文本像素处的方差值的直方图。从所述直方图,可以提取规定最大局部背景方差的阈值。然后根据最大背景方差执行基于像素的分类,以识别潜在的背景像素和非背景(即,图像)像素,并生成分类图像。通过使用背景的特征是它们典型地包括由已连的均质(homogenous)像素(即具有小方差的像素)组成的大区域的观察,执行在分类图像中已连成分的检测。已连成分的检测产生已连成分的两个集合,包括:包含均质像素的已连成分的集合和包含波浪式像素(即,具有大方差的像素)的已连成分的集合。图像和背景种子分别从波浪式的已连成分集合和均匀的已连成分集合中被选择。在集合中的剩余的已连成分将是背景中的局部起伏或图像中的平坦区域。执行来自波浪式集合和均质集合的已连成分与它们周围的已连成分的连续合并。这种合并导致波浪式集合和均质集合被腾空,以及所有的像素被分配给背景或图像已连成分。本概要被提供来以简化的形式介绍概念的选择,这些概念还将在下面的详细说明中进一步描述。本概要既不打算确认所要求保护的主题的关键特征或必要特征,也不打算被用来帮助确定所要求保护的主题的范围。附图说明图1显示说明性的高级别的页分割架构; 图2显示说明性的文本行检测算法的简化功能框 图3显示说明性的图像区域检测算法的简化功能框 图4显示说明性的图像坐标系统; 图5显示使用单词和行的文本组织的说明性例子; 图6显示可以在文本检测中使用的文本规则性的说明性例子; 图7显示其中存在所有字符的共同的最小文本区域的说明性例子; 图8显示对于示范性单词的基线、主线和X-高度的图形表示; 图9显示仅仅根据几何信息,单词间距的规则几何形状可以如何导致存在两个文本列的结论的例子; 图10描绘了具有复杂的彩色梯度的典型的杂志文档; 图11显示在图10描绘的杂志文档中包含的、在边缘空间中的文本信息的例子; 图12显示相对于垂直统计量的三种类型(上行部分(ascender)、下行部分(descender)和其它)的两个字符的可能的组合; 图13显示文本行的中心线(在基线与主线中间的线); 图14显示对于任意的文本例子的中心线投票的说明性直方 图15显示具有某个文本和一部分图片的说明性彩色文档; 图16显示图15所示的文档的灰度转换的结果; 图17显示对于图16所示的图像的边缘检测的结果; 图18显示对于图17所示的图像的已连成分检测的结果; 图19显示对于图18所示的已连成分所估计的中心线; 图20显示通过使用中心线追踪规程被标记为中心线的一部分的已连成分; 图21显示在自然行检测中的说明性步骤; 图22显示文本样本如何典型地包括具有在各种方向上的边缘角度的像素; 图23显示对于图22所示的文本样本的、一组说明性的边缘角度(0、90、45和135度)的统计得到的概率分布; 图24显示说明性边缘密度概率; 图25显示边缘(其中边缘在所有的方向)的垂直投影的说明性例子; 图26显示水平边缘的垂直投影的说明性例子; 图27描绘了用来显示典型地可能遇到的各种各样的图像的说明性文档; 图28显示在示范性文档中分辨率减小和文本本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】2010.03.10 US 12/7209431.一种用于在光学字符识别过程中进行页分割以便检测在输入的去扭曲的灰度图像中的一个或多个文本对象或图像对象的方法,该方法包括以下步骤: 从灰度图像创建边缘空间; 将中心线追踪应用到在边缘空间中识别的已连成分,以便从已连成分生成一个或多个自然行候选者; 将自然行候选者分类为文本行或非文本行,以便检测图像中的文本对象; 从在检测到的文本对象中的像素确定规定最大局部方差的阈值;以及 通过根据最大背景方差执行基于像素的分类,来识别背景像素和图像区域像素,以便检测图像中的图像对象,而生成分类图像。2.权利要求1的方法,其中所述分类包括在边缘空间中针对内含的规则性来检查所述一个或多个自然行候选者。3.权利要求1的方法,包括降低图像分辨率以便从该图像滤去文本的另外的步骤。4.权利要求3的方法,包括从经滤波的图像生成方差图像的另外的步骤。5.权利要求1的方法,其中中心线追踪包括为所述一个或多个已连成分的每一个找出水平邻居的集合;给所述一个或多个已连成分的每一个分配分数,所述分数代表已连成分属于文本行的概率;以及通过应用水平邻居投票来为每个已连成分估计中心线。6.权利要求5的方法,其中中心线追踪还包括选择具有最大分数的已连成分作为种子;通过向右移动并把种子与右面的已连成分的中心线之间的差值与阈值进...

【专利技术属性】
技术研发人员:S加利奇B拉达科维奇N托迪奇
申请(专利权)人:微软公司
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1