光学字符识别中的文档页分割制造技术

技术编号：8687954 阅读：209 留言：0更新日期：2013-05-09 07:48

在光学字符识别过程中的页分割被执行来检测文本对象和/或图像对象。在输入的灰度图像中的文本对象是通过选择用于自然行的候选者而被检测的，所述候选者是具有由基线（大多数文本字符“坐”在该线以上）和主线（大多数字符“挂”在该线以下）的值规定的相似垂直统计量的、水平相邻的已连成分的集合（即，图像像素的子集，其中来自所述集合的每个像素与来自该集合的所有的剩余像素相连接）。通过检查任何内含的规则性，而对自然行执行二元分类，以便把它们分类为文本或非文本的。图像对象是通过使用检测到的文本规定背景来检测图像的背景而被间接检测的。一旦背景被检测，剩余的东西（即，非背景）就是图像对象。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】光学字符识别中的文档页分割
技术介绍
光学字符识别(OCR)是文本的图像到如机器可编辑文本的数字形式的基于计算机的转化，通常是按照标准编码方案的。这个过程消除了对将文档人工打字输入到计算机系统的需要。由于图像质量差、由扫描过程引起的缺陷等等，会引发许多不同的问题。例如，常规的OCR引擎可以被耦合到用来扫描文本的页的平板扫描仪。因为页被相对扫描仪的扫描面齐平地放置，所以由扫描仪生成的图像典型地呈现均匀的对比度和照度、减小的扭曲和失真、以及高分辨率。因此，OCR引擎可以容易地把图像中的文本转化成机器可编辑的文本。然而，当图像在对比度、照度、扭曲等等方面具有较差的质量时，OCR引擎的性能可能会恶化，并且处理时间可能会由于对图像中的所有像素进行处理而增加。例如当图像是从书本得到时或当图像是由基于图像的扫描仪生成时，情形可能是这样，因为在这些情形下，文本/图片是从一定的距离、从变化的取向和在变化的照度下被扫描的。即使扫描过程的性能是好的，当质量相对较差的文本页被扫描时，OCR引擎的性能也可能恶化。这个背景被提供来介绍随后的概要和详细描述的概略的上下文。这个背景不打算用来帮助确定所...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】2010.03.10 US 12/7209431.一种用于在光学字符识别过程中进行页分割以便检测在输入的去扭曲的灰度图像中的一个或多个文本对象或图像对象的方法，该方法包括以下步骤: 从灰度图像创建边缘空间；将中心线追踪应用到在边缘空间中识别的已连成分，以便从已连成分生成一个或多个自然行候选者；将自然行候选者分类为文本行或非文本行，以便检测图像中的文本对象；从在检测到的文本对象中的像素确定规定最大局部方差的阈值；以及通过根据最大背景方差执行基于像素的分类，来识别背景像素和图像区域像素，以便检测图像中的图像对象，而生成分类图像。2.权利要求1的方法,其中所述分类包括在边缘空间中针对内含的规则性来检查所述一个或多个自然行候选者。3.权利要求1的方法，包括降低图像分辨率以便从该图像滤去文本的另外的步骤。4.权利要求3的方法，包括从经滤波的图像生成方差图像的另外的步骤。5.权利要求1的方法，其中中心线追踪包括为所述一个或多个已连成分的每一个找出水平邻居的集合；给所述一个或多个已连成分的每一个分配分数，所述分数代表已连成分属于文本行的概率；以及通过应用水平邻居投票来为每个已连成分估计中心线。6.权利要求5的方法，其中中心线追踪还包括选择具有最大分数的已连成分作为种子；通过向右移动并把种子与右面的已连成分的中心线之间的差值与阈值进...

【专利技术属性】
技术研发人员：S加利奇，B拉达科维奇，N托迪奇，
申请(专利权)人：微软公司，
类型：
国别省市：

全部详细技术资料下载我是这个专利的主人