当前位置: 首页 > 专利查询>威廉彼得曼专利>正文

用于查询用光学字符识别创建的电子文档的系统和方法技术方案

技术编号:2884610 阅读:200 留言:0更新日期:2012-04-11 18:40
为了补偿OCR扫描过程中误读的字符或字符串,对查寻请求进行了处理。在输入一个字母数字查寻(50)后,根据预先确定的可能OCR错误表、OCR错误发生概率和预先确定的发生概率阈值,该系统确定与输入的字母数字查寻请求关联的变体词(52)。当完成处理时,查寻引擎便使用这些变体词去查寻含有OCR扫描文档的数据库(54)。(*该技术在2019年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术是关于计算机数据库查寻的方法、装置和计算机产品,更具体地说,是关于查寻用光学字符识别技术创建的文档的方法、装置和计算机产品。商务和政府依靠的大量信息是而且一直是存储在纸上。随着易于访问的广域网、高速光扫描器和便宜的海量存储器的出现,在近些年已在试图使纸上信息成为机器可访问的。机器可访问的信息与纸相比有很多优点。电子数据存储比在储藏室内的文档柜要便宜得多,特别是一旦考虑租金则更是如此。检索时间以秒或十分之几秒来计算,而不是分、小时或者甚至天,特别是对于大量归档的信息。信息复制成为小事一桩,而且许多人能同时访问一个文档。可惜,把大量存在的纸上信息转换成机器可访问的形式则是令人胆怯的任务。一种方法使用光扫描器扫描每个文档并在扫描文档时自动处理每个文档。光扫描器创建一个文档的电子图像。光学字符识别(OCR)软件处理这电子图像并创建代表该文档的电子文本文档。“建索引”软件读每个文本文档并为所有这些文档建立索引。然后,查寻程序能使用这个索引得到含有指定词或词组合的文档的位置。对文档建索引和查寻的过程称作全文本建索引和检索。全文本建索引和检索有两个强有力的优点它是完全自动的(因而比较省钱),而且它是直接基于被扫描文档的实际内容。高端检索系统可以包括对上下文的敏感性,当用户指定文档的主题而不是它的严格短语时,这种对上下文的敏感性允许对含有相关词的文档确定其位置。万维网查寻引擎使用全文本检索引擎查寻成百万个文档。有时查寻引擎没能对使用扫描器和OCR软件创建的文档确定其位置。这是由于在由扫描产生的文档所构成的大数据库中存在大量的错误。一个大数据库可能包括多于一百万个文档和千万个页面。为了查寻一个文档,用户必须指定三个或更多个词或词组的组合,以使文档是唯一的,或者至少使查寻结果限制在可管理的大小。如果可能的目标文档在其用于查寻的关键词中存在错误,则查寻引擎将不能对该文档确定其位置。OCR程序往往每页产生若干个错误。这种错误的例子是一个字母被错误地表示为类似的字母,如大写的“I”被误认为是小写的“l”。对这个问题的一个解决办法是“模糊查寻”。模糊查寻是基于这样的概念,即含有错误的词在构造上类似于该词的真正版本。例如,“internet”和“intermet”在构造上是类似的。从第一个词中删去一个字母并在其他字母中替入一个“m”,则第一个词变成第二词。模糊查寻例行程序对把一词变成另一词所必须的改变计数。如果需要足够少的改变,则报告一次匹配。因为在查寻过程中数据库中的每个独特词都要单个地与该关键词比较以确定是否有匹配,所以这种方法在计算上是昂贵的。因为OCR错误经常产生“独特词”,所以含有大档案全文本索引的数据库能有超过百万个独特词要与每个关键词进行比较。即使在快速服务器上,这样的查寻也是费时间的。除了它所用的时间量外,模糊查寻还能造成大量“命中”。在一个大数据库中,许多查寻返回数千个匹配。“Internet”与“intemet”类似,但也类似于“intem”,“undernet”,甚至“international”。对“boat”的查寻可能匹配“coat”,尽管OCR程序很不可能把“b”混淆为“c”。希望有一种机制,它允许查寻引擎准确地定位由OCR软件创建的电子文档。最好是这种机制能识别通常由OCR软件产生的错误并解释有最高发生概率的错误。此外,最好是该机制能使用户请求查寻时的处理量减至最小,以便减少每次查寻的时间。根据本专利技术,提供了一种方法和计算机产品,用于处理一个查寻请求以补偿光学字符识别(OCR)扫描过程中被不适当解释的字符或字符串。在收到一个字母数字查寻请求之后,本专利技术的机制根据预先定义的可能OCR替换表、OCR替换发生概率以及预先定义的发生概率阈值,确定与所收到的字母数字查寻相关联的变体词。然后对这些变体词查寻具有OCR扫描文档的数据库。根据本专利技术的其他方面,通过确定代表查寻请求各部分的OCR解释的各词段,来确定变体词。对每个词段确定一个累积概率,如果一个词段的累积概率低于预先确定的阈值,则该词段被拒绝作为变体词。根据本专利技术的又一些方面,创建了树数据结构,有分支节点和替换节点。每个分支节点代表OCR处理过程中一个字符的可能轮廓。每个替换节点代表与父分支节点对应的字符的可能OCR替换。沿着从根节点到叶节点的路径的替换节点构成变体词。由一替换节点的发生概率乘以该节点的祖父替换节点的累积发生概率,以此确定该替换节点的累积概率。如从上面的概要容易理解的那样,本专利技术为用光学字符识别产生的电子文档的词查寻提供了一种新的改进的方法、装置和计算机产品。本专利技术减少了由于文档当初转换成电子形式时OCR错误造成的查询过程中漏失文档数。本专利技术还通过减小收到查寻请求后要完成的处理量来减少了完成一个查寻所需要的时间量。最后,因为以这种方式构成的变体词很少是数据库的自然语言中的合法词,所以极大地减少了误“命中”数。通过结合附图参考下文中的详细描述,将会更好地懂得本专利技术的前述各方面及伴随的优点,从而使这些变得更加易于解释,这里附图说明图1显示适于实现本专利技术的计算机系统的一些基本组成部分;图2是流程图,说明为使本专利技术工作所使用的光学字符识别(OCR)统计表的产生过程;图3和图4是流程图,说明根据本专利技术查寻一OCR扫描文档数据库的过程;图5是示例节点图,说明根据本专利技术进行的预处理;以及图6是关系图,说明在如图2所示创建的统计表中存储的来自图5查寻举例的信息的关系。图1显示根据本专利技术构成的文本查寻系统20的组成部分。更具体地说,该文本查寻系统20包括具有预先存储的统计表23的存储器22,与存储器22耦合的预处理器24,用于向预处理器输入查询请求的用户接口装置26,用于从预处理器24接收查寻请求的查寻引擎28以及数据库30,在数据库30中包括由查寻引擎28查寻的预存文档。系统20还可以包括光扫描文档的扫描器32和处理由扫描器32产生的图像以产生供插入数据库30的文本文档的光学字符识别(OCR)程序34。接口装置26包括用户输入装置(如键盘和鼠标)和输出装置(如显示装置或打印机)。在这一例中,预处理器24和查寻引擎28位于主计算机21内。然而,如本领域普通技术人员容易理解的那样,预处理器24和查寻引擎28可以彼此远离。例如,预处理器24可以位于客户主计算机中,而查寻引擎28可以位于一服务器计算机系统,它通过公共或专用数据网络与预处理器24相连。在另一种配置中,用户接口装置26可连于一客户计算机,后者通过计算机网络,如广域网或局域网,与主计算机21通信。此外,数据库30可以驻留在主计算机21上或者驻留在一个单独的计算机上,它或者直接或者通过计算机网络与主计算机21通信。在适当地运行查寻系统20之前,要产生统计表23。如图2中所示,在块40,确定每个字符或字符串的可能由OCR产生的变体(错误),以及每个变体的发生概率。可以以几种方式由实验完成建立可能变体及其发生概率列表。例如,将字处理系统产生的若干文档打印出来。然后由扫描器32扫描打印出的文档并由OCR程序34处理。然后将OCR扫描的文档与原始字处理产生的文档进行比较。确定其差异及差异的发生概率。用于产生统计表的OCR技术最好与把文档送入数据库所用的OCR技术相似。在块42,产生一本文档来自技高网...

【技术保护点】
一种基于计算机的用于查寻由光学字符识别创建的文档的数据库的方法,该方法包括:接收一个字母数字查寻请求;根据预先确定的光学字符识别替换数据,确定至少一个与该字母数字查寻请求关联的变体词,该光学字符识别替换数据包括一组光学字符识别替换和 与每个光学字符识别替换对应的发生概率,这里该变体词不同于该字母数字查寻请求;以及根据所述至少一个被确定的变体词,查寻电子文档数据库。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:威廉彼得曼
申请(专利权)人:威廉彼得曼
类型:发明
国别省市:US[美国]

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1