检测文本行图像中的断字位置制造技术

技术编号：8082160 阅读：260 留言：0更新日期：2012-12-14 15:16

通过从输入中提取特征以便定位中断，以及随后将这些中断归类到包括单词间中断和字符间中断的两种中断分类之一，执行OCR处理中的行分割，从而检测出单词在输入文本行图像中的位置。然后，包含检测到的单词边界框的以及给定中断属于所识别分类的概率的输出可被提供给下游的OCR或其他组件，以便进行后期处理。非常有利的是，通过将行分割处理缩减成特征提取处理，可以在不丧失一般性的情况下降低行分割任务的复杂度，其中所述特征包括：每个中断的位置，中断特征数量以及中断分类。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】检测文本行图像中的断字位置
技术介绍
光学字符识别(OCR)是一种基于计算机来将文本图像转换成数字形式的处理，该数字形式是通常采用标准编码方案的机器可编辑文本。这种处理消除了将文档手动键入计算机系统的需要。由于图像质量低劣以及扫描处理引入的瑕疵等等，有可能出现很多不同的问题。例如，常规的OCR引擎可以与扫描文本页面的平面扫描仪耦合。由于该页面是对着扫描仪的扫描表面齐平放置的，因此，扫描仪产生的图像通常会呈现均匀的对比度和光照度、减小的倾斜和失真以及很高的分辨率。由此，OCR引擎能够很容易将图像中的文本转换成机器可编辑文本。然而，当图像在对比度、光照度、倾斜等方面的质量低劣时，OCR引擎的性能有可能降低，并且，由于要对图像中的所有像素进行处理，因此，处理时间有可能增力口。举例来说，此类情形有可能在从书籍中获取图像或者用基于图像的扫描仪产生图像的时候出现，其中的原因在于在这些情况下，文本/图片是在光照度改变的情况下从某个距离以及变化的方位扫描的。在扫描质量相对较差的文本页面的时候，即便扫描处理性能良好，OCR引擎性能也有可能降低。本
技术介绍
部分是为了介绍关于后续
技术实现思路
和具体实施方式部分的简要背景而被提供的。本
技术介绍
部分既不打算用于帮助确定所要求保护的主题的范围，也不应被视为是将所要求保护的主题局限于解决上文所给的任一或所有缺陷或问题的实施方式。
技术实现思路
通过从输入中提取特征以便定位中断(break)，以及随后将这些中断归类到包括单词间中断和字符间中断在内的两种中断分类之一，来执行OCR处理中的行分割，从而检测出单词在输入文本行图像中的位置。然后，包含了检...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员：A乌泽拉奇，B德雷塞维奇，S加利奇，B拉达科维奇，
申请(专利权)人：微软公司，
类型：
国别省市：

全部详细技术资料下载我是这个专利的主人