当前位置: 首页 > 专利查询>微软公司专利>正文

基于图像文档的索引和检索制造技术

技术编号:2861481 阅读:188 留言:0更新日期:2012-04-11 18:40
提供了一种便于文档检索和/或索引的系统。一个组件接收文档的图像,并且一搜索组件搜索一个或多个数据存储以找出该文档图像的匹配。该匹配是在存储于数据存储中的文档图像的单词级拓扑属性来执行的。

【技术实现步骤摘要】

本专利技术通常涉及通过比较存储文档的索引签名和由存储文档的打印版产生的索引签名来索引和/或检索存储的电子文档。
技术介绍
计算和通信技术的发展明显改变了与通过文档传送信息有关的商业行为。现在已经可以在相当长的距离上几乎瞬间地电子化传送格式化的文档了。然而,在商业和个人环境中,大量的浏览和/或编辑是在打印文档上完成的。例如,在工作环境中的会议典型地包括分发打印文档给出席的人们。而且,许多个人宁愿在纸件上阅读和/或编辑文档而不愿在计算机屏幕上阅读和/或编辑。在需要打印大量文档的商业或个人环境中,将这些文档索引到它们各自的电子版是存在问题的。对文档的破坏,包括污点和破损,以及在打印文档上作出的注释都会使得更难于相关打印文档到它们各自的电子版。例如,文档可以在会议上被打印和分发,并且会议服务员可以根据有关会议的思想用钢笔或类似的标记工具连同文档信息一起来注释该文档。然后该文档可能在其被放在文件夹中时被以其它方式折叠、弄脏、和/或破坏并被从会议中传送到不同的地方。此后,该文档可能躺在其它文档堆里几个小时、几天、或甚至几个月。如果想查找该打印文档的电子版,就会需要相当长的时间来查找该电子版。而且,如果找不到该文档的电子版,就需要分配资源来重新录入该文档到计算机中。其它情形还在于,基于文档(例如打印版)的物理版来查找文档的电子版是存在问题的。例如,经销商可以准备并传真购买订单草图给顾客,并且接收到该购买订单的顾客可以通过用钢笔或其它合适标记工具物理上修改该文档来修改传真文档的内容。然后,顾客可以通过传真将修改的文档传回到经销商那里。为了查找该打印文档电子版,经销商必须手动搜索整个数据库并匹配该文档的打印版到该文档的电子版。在文档的电子版和打印版之间的相关可能需要大量的时间,尤其是在创建该文档的人员不能协助匹配打印文档到其电子副本的情况下(例如,这个人休假,退休,...)。传统纠正与索引物理文档和对应电子文档相关的问题的系统和/或方法需要用标识信息来标记打印文档。例如,文件位置可以包括在每个打印文档中(例如,在每个打印文档的头部,可以打印与对应电子版的相关提供的文件位置来查找该电子版)。可选地,可以在每个打印文档上放置唯一条形码,其中该条形码可以被用来查找该文档的电子版。例如,可以使用条形码扫扫描仪来扫描在打印文档上的条形码,并可以基于该扫描来检索该文档的对应电子版。然而,由于这种信息弄乱了文档,因此这种标识信息在美学观点上是令人不愉快的。而且,对打印文档的破损、弄脏、注释或其它物理破坏/改变都会导致这些传统系统和或方法基本上无用。例如,如果条形码的一部分被从打印文档上撕去,那么条形码扫描仪就不能正确读取该条形码。类似地,文档上的污迹也会导致文档电子版的打印位置不可读。也可以使用光字符标识(OCR)来基于打印版查找文档的电子版。例如,打印文档可以被数字化(例如,通过扫描仪、数码相机,...),并且,计算组件可以使用OCR来标识在数码打印文档中的特定字符并匹配这些字符到在打印文档的电子版中的对应字符。然而,这种技术需要大量的计算资源。而且,数据库可能包括几百或几千个文档,并且在多个文档上进行OCR将花费大量的时间。其它用来基于打印文档查找文档的电子版的应用使用了关键词(例如,修改的数据或其它关键词)来查找电子版。然而,获得关键词是很困难的,并且包括这些关键词的文档可能是多个。至少考虑到上面的问题,在技术上强烈需求一种能够强健索引电子文档和对应物理文档的系统和/或方法,以及能够基于文档的打印版以及与电子文档相关的信息(例如,数据库记录、工作流,...)检索电子文档的系统和/或方法。
技术实现思路
下面给出了本专利技术的简化概述以便提供对本专利技术某些方面的基本理解。该概述并不是本专利技术的详尽综述。目的不在于标识本专利技术的关键或决定性元素,也不在于描绘本专利技术的范围。其唯一目的在于以简化的形式显示本专利技术的某些概念作为后面显示的更详细描述的序言。本专利技术便于通过比较与存储文档相关的签名和与对应于该存储文档的打印文档图像相关的签名来索引和/或检索所存储的电子文档。本专利技术使用文档的单词级拓扑属性来产生签名,从而能够方便强健地完成存储文档的检索,而不会有与传统系统和/或方法相关的低效率。标识存储的电子文档的签名是通过获取与在每个文档中的单词布局相关的数据来产生的。应该理解,签名可以以这样一种方式生成,该方式既使在存在噪声(例如打印噪声)时也能使签名能够标识文档。从而,由于这些签名与对文档高度专用的特征相关,所以,每个签名可以强健地标识特定的文档。例如,由于两个不同文档具有基本上相似的单词布局模式的可能性是极其小的,因此可以使用文档中的单词的至少一部分的位置以及文档中的单词的宽度来创建强健地标识文档的签名。根据本专利技术的一个方面,在加载包含对应于打印文档的电子文档图像的一个或多个数据存储时产生这些签名。例如,这些数据存储可以在接收到请求时被加载(并产生签名),以基于打印文档的图像查找特定电子文档。使用打印文档图像的单词布局的签名是在接收到图像时产生的,然后可以将这些签名与和电子文档相关的签名(例如,通过使用存储的电子文档产生的签名)进行比较。然后可以检索与最大程度上匹配打印文档图像签名的签名相关的电子文档。根据本专利技术的一个方面,可以自动产生文档的图像,并可以产生与图像相关的签名,并在打印文档时将其存储在数据存储中。这就保证了对于每个打印文档,在指定的数据存储中存在与该文档的存储的电子版相关的签名。从而可以创建文档,并可以在打印文档时自动产生位图(或其它合适的图像格式)。在产生电子文档的图像时可以产生标识该文档的签名,并将其存储在数据存储中。之后,可修改并再次打印该文档,从而自动产生和存储与修改文档相关的签名,而无需改变与原文档相关的签名。接着可以比较代表电子文档单词布局的签名和后来所捕捉的打印文档图像的签名,从而可以检索与最大程度上匹配后来捕捉的图像签名的签名相关的文档的电子版。然而,当打印文档包含多个注释、污点、折叠、和其它物理修改时,在匹配打印文档和该文档的电子版时会出现困难。因此,本专利技术在使用文档单词布局来产生签名之前查找并移除这种物理修改。在本专利技术中提供了用来移除注释、标记、和其它噪声的过滤器。而且,可以产生打印文档捕捉图像的灰度级图像来减少噪声。例如,对于给定的一个特定照明,具有白色背景和黑色字体的文档图像可以显示为具有黄色背景和绿色字体。灰度级图像可以有效减轻当图像没有包括合适色彩时产生的问题。根据本专利技术的另一方面,电子文档的签名和/或打印文档图像的签名可以包括在获得打印文档图像时产生的旋转和/或平移的阈值容限。例如,打印文档可能不在扫描仪中被精确地对齐(例如,可以相对于图像边界来平移和/或旋转文档的图像)。如果不考虑这种误差,那么打印文档图像的签名就基本上不可能匹配对应电子文档的签名。因此,考虑在捕捉打印文档图像时产生的误差保证了对应电子文档可以被查找和检索到。本专利技术还解决了与比较电子文档的许多签名和打印文档的图像的签名所需的时间量相关而产生的问题。例如,如果数据存储包括成千上万的文档或图像文档,那么就需要比期望的时间量更大的时间量来完全比较与文档或图像相关的签名。为了减轻这些问题,本专利技术提供了一种快速减少考虑的电子文档签名数本文档来自技高网
...

【技术保护点】
一种用于文档检索和/或索引的系统,其特征在于,它包括:一接收物理文档的至少一部分的已捕捉图像的组件;以及一查找与所述文档的匹配的搜索组件,所述搜索是在产生的图像的单词级拓扑属性上执行的,所产生的图像是一个或多个电子文档的至少 一部分的图像。

【技术特征摘要】
US 2004-1-15 10/758,3701.一种用于文档检索和/或索引的系统,其特征在于,它包括一接收物理文档的至少一部分的已捕捉图像的组件;以及一查找与所述文档的匹配的搜索组件,所述搜索是在产生的图像的单词级拓扑属性上执行的,所产生的图像是一个或多个电子文档的至少一部分的图像。2.根据权利要求1所述的系统,其特征在于,它还包括一产生对应于一个或多个所产生的图像的一个或多个签名、并产生对应于所述文档的已捕捉图像的签名的组件,所述签名标识所产生的图像的单词布局,并且所述搜索是通过比较所产生的图像的签名和所捕捉的文档的图像的签名来执行的。3.根据权利要求2所述的系统,其特征在于,所述签名是散列表和近似散列表中的至少一个。4.根据权利要求3所述的系统,其特征在于,所述散列表和近似散列表中的至少一个包括一与在所产生的图像和所述文档的图像中的至少其中一个内的单词的位置和宽度相关联的密钥。5.根据权利要求2所述的系统,其特征在于,它还包括一计分组件,其分配对应于被搜索的所产生的图像的子集的置信度得分。6.根据权利要求5所述的系统,其特征在于,一具有最高置信度得分的所产生的图像被选择作为与所述文档的已捕捉图像的匹配。7.根据权利要求2所述的系统,其特征在于,对应于所述一个或多个产生的图像的所述签名包括一误差容限。8.根据权利要求2所述的系统,其特征在于,与所述一个或多个产生的图像相关联的所述签名的一部分被与所捕捉的文档的图像的签名的对应部分进行比较。9.根据权利要求8所述的系统,其特征在于,对应于所述一个或多个产生的图像的所述签名被保留以供进一步考虑,所述产生的图像具有阈值数量的与所述文档的已捕捉图像的签名的对应部分的匹配。10.根据权利要求9所述的系统,其特征在于,它还包括一当阈值数量的签名被保留以供进一步考虑时分配置信度得分的组件。11.根据权利要求2所述的系统,其特征在于,对应于所述一个或多个产生的图像的签名和所捕捉的文档的图像的签名是分别至少部分地基于在所产生的图像和所捕捉的文档的图像中的每个单词的至少一部分的位置产生的。12.根据权利要求11所述的系统,其特征在于,对应于所述一个或多个产生的图像的签名和所述文档的已捕捉图像的签名也是分别至少部分地基于在所捕捉的图像和所产生图像中的每个单词的宽度产生的。13.根据权利要求2所述的系统,其特征在于,它还包括一产生与所产生的图像和所述文档的已捕捉图像相关的树形表示的组件,所述树形表示是所产生的图像和所述文档的已捕捉图像的分层表示,其中,所述树形表示传达了所产生的图像的哪些片断和所述文档的图像的哪些片断包括单词;以及一将与所产生的图像相关的树形表示和与所述文档的已捕捉图像相关的树形表示相比较的比较组件。14.根据权利要求1所述的系统,其特征在于,它还包括一减少在所述文档的已捕捉图像中的噪声的组件。15.根据权利要求1所述的系统,其特征在于,它还包括一产生所述文档的已捕捉图像的灰度级图像的组件。16.根据权利要求1所述的系统,其特征在于,它还包括一连接组件,它连接在所产生的图像和所捕捉的图像的单词内的字符,而不连接所产生的图像和所捕捉的图像的单词。17.根据权利要求16所述的系统,其特征在于,所产生的图像和所捕捉的图像是二元图像,所述连接组件对所述二元图像执行像素扩张。18.根据权利要求17所述的系统,其特征在于,所述连接组件改变所述文档的已捕捉图像的分辨率,以便于连接在所述文档的已捕捉图像的单词内的字符而不会连接在所述文档的已捕捉图像内的不同单词。19.根据权利要求1所述的系统,其特征在于,它还包括一在电子文档被打印时自动产生该电子文档的图像的缓存组件。20.根据权利要求19所述的系统,其特征在于,它还包括一推断哪些打印文档应该具有相关联的存储图像的人工智能组件。21.根据权利要求1所述的系统,其特征在于,它还包括一人工智能组件,它至少部分地基于用户状态、用户环境和用户历史中的其中一个从搜索中排除所产生的图像的一个子集。22.根据权利要求1所述的系统,其特征在于,所产生的图像的至少一个与一数据存储中的条目相关联,所述条目包括电子文档页面的一个或多个图像、和一标识该页面的图像的签名,所述签名至少部分地基于该页面的图像内单词的拓扑属性。23.根据权利要求22所述的系统,其特征在于,所述电子文档的页面的一个或多个图像和标识该页面的图像的所述签名与以下的一个或多相关联一标识所述电子文档的位置的URL、所述电子文档、所述电子文档的页面的图像的分层树形表示、所述页面的图像的OCR、与所述页面的图像的访问次数相关的数据、顾客记录、支付信息、和工作流信息。24.一种便于索引和/或检索文档的方法,其特征在于,它包括产生电子文档的多个图像,所述电子文档的图像的至少一个对应于一打印文档;在一文档被打印之后,捕捉该打印文档的图像;接收一请求检索对应于所述打印文档的图像的电子文档的查询;产生对应于一个或多个所产生的图像的至少一部分的一个或多个签名,所述签名是至少部分地基于所述图像内的单词布局产生的;产生一对应于所捕捉的图像的至少一部分的签名,所述签名是至少...

【专利技术属性】
技术研发人员:DM巴杰龙PY西马德VC斯里瓦斯塔瓦
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1