当前位置: 首页 > 专利查询>微软公司专利>正文

经历OCR过程的文本的单词识别制造技术

技术编号:6829115 阅读:260 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了经历OCR过程的文本的单词识别。一种用于在经历光学字符识别的文本图像中标识单词的方法包括,接收(410)包括已由多个切分线分割的文本行的图像(15)的位图(多个切分线各自与反映相应的切分线正确地将文本行分割成个体字符的程度的置信水平相关联)。至少部分基于文本行以及具有大于第一阈值的切分线置信水平的第一子集的切分线,来在文本行的一个中标识(420)一个或多个单词。如果(430)第一单词不与足够高的单词置信水平相关联,则至少部分基于具有大于小于第一阈值的第二阈值的置信水平的第二子集的切分线,来标识(440)至少一第二单词。

【技术实现步骤摘要】

本专利技术涉及计算机技术,尤其涉及计算机的字符识别技术。
技术介绍
光学字符识别(OCR)是一般以标准编码方案对文本的图像到作为机器可编辑文本的数字形式的基于计算机的转换。这一过程消除了将文档手动键入计算机系统的需求。 由于扫描过程所导致的较差图像质量、非理想性等可引起多个不同问题。例如,常规OCR引擎可被耦合到扫描文本页面的平板式扫描仪。由于页面被放置于与扫描仪的扫描面齐平, 因此扫描仪所生成的图像通常展示出均勻的对比度和照明度、减少的歪斜和失真、以及高的分辨率。由此,OCR引擎可方便地将图像中的文本转换成机器可编辑的文本。然而,当图像关于对比度、照明度、歪斜等质量较低时,由于处理该图像中的所有像素,OCR引擎的性能可能会降级并且处理时间可能会增加。例如,当图像是从书中获取时或者当由基于成像器的扫描仪生成时,这可能是该情况,因为在这些情况下,文本/图像是从一距离、从变化的方向、以及在变化的照明中扫描的。即使扫描过程的性能是良好的,当相对低质量的文本页面正被扫描时OCR引擎的性能也可能会降级。OCR过程中的一个步骤是单词识别。所识别的单词旨在在拼写和排列上与打印在原始文档中的单词本文档来自技高网...

【技术保护点】
1.一种用于在经历OCR过程的文本图像中标识单词的方法,包括:(a)接收(410)包括已由切分线分割以定义其间的符号的文本行的输入图像的位图,其中所述切分线的每一个与切分线置信水平相关联,所述切分线置信水平反映相应的切分线正确地将所述文本行分割成个体字符的程度;(b)维护存储数据元素的数据结构,所述数据元素包括所述位图、具有相应的切分线置信水平的切分线和所述符号;(c)从所述数据结构中的数据元素的第一子集中产生具有相关联的字符置信水平的候选字符的第一集,所述数据元素的第一子集具有相应的候选置信水平,所述相应的候选置信水平各自超过数据元素阈值的第一集中的相应一个;(d)通过进一步包括具有相应的字...

【技术特征摘要】
...

【专利技术属性】
技术研发人员:A·安东尼杰维克I·米蒂克M·钦波D·尼耶姆切维奇
申请(专利权)人:微软公司
类型:发明
国别省市:US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1