用于查询用光学字符识别创建的电子文档的系统和方法技术方案

技术编号：2884610 阅读：200 留言：0更新日期：2012-04-11 18:40

为了补偿ＯＣＲ扫描过程中误读的字符或字符串，对查寻请求进行了处理。在输入一个字母数字查寻（５０）后，根据预先确定的可能ＯＣＲ错误表、ＯＣＲ错误发生概率和预先确定的发生概率阈值，该系统确定与输入的字母数字查寻请求关联的变体词（５２）。当完成处理时，查寻引擎便使用这些变体词去查寻含有ＯＣＲ扫描文档的数据库（５４）。（*该技术在2019年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术是关于计算机数据库查寻的方法、装置和计算机产品，更具体地说，是关于查寻用光学字符识别技术创建的文档的方法、装置和计算机产品。商务和政府依靠的大量信息是而且一直是存储在纸上。随着易于访问的广域网、高速光扫描器和便宜的海量存储器的出现，在近些年已在试图使纸上信息成为机器可访问的。机器可访问的信息与纸相比有很多优点。电子数据存储比在储藏室内的文档柜要便宜得多，特别是一旦考虑租金则更是如此。检索时间以秒或十分之几秒来计算，而不是分、小时或者甚至天，特别是对于大量归档的信息。信息复制成为小事一桩，而且许多人能同时访问一个文档。可惜，把大量存在的纸上信息转换成机器可访问的形式则是令人胆怯的任务。一种方法使用光扫描器扫描每个文档并在扫描文档时自动处理每个文档。光扫描器创建一个文档的电子图像。光学字符识别(OCR)软件处理这电子图像并创建代表该文档的电子文本文档。“建索引”软件读每个文本文档并为所有这些文档建立索引。然后，查寻程序能使用这个索引得到含有指定词或词组合的文档的位置。对文档建索引和查寻的过程称作全文本建索引和检索。全文本建索引和检索有两个强有力的优点它是完全自动的(因而比较省钱)，而且它是直接基于被扫描文档的实际内容。高端检索系统可以包括对上下文的敏感性，当用户指定文档的主题而不是它的严格短语时，这种对上下文的敏感性允许对含有相关词的文档确定其位置。万维网查寻引擎使用全文本检索引擎查寻成百万个文档。有时查寻引擎没能对使用扫描器和OCR软件创建的文档确定其位置。这是由于在由扫描产生的文档所构成的大数据库中存在大量的错误。一个大数据库可能包括多于一...

【技术保护点】
一种基于计算机的用于查寻由光学字符识别创建的文档的数据库的方法，该方法包括：接收一个字母数字查寻请求；根据预先确定的光学字符识别替换数据，确定至少一个与该字母数字查寻请求关联的变体词，该光学字符识别替换数据包括一组光学字符识别替换和与每个光学字符识别替换对应的发生概率，这里该变体词不同于该字母数字查寻请求；以及根据所述至少一个被确定的变体词，查寻电子文档数据库。

【技术特征摘要】
...

【专利技术属性】
技术研发人员：威廉彼得曼，
申请(专利权)人：威廉彼得曼，
类型：发明
国别省市：US[美国]

全部详细技术资料下载我是这个专利的主人