【技术实现步骤摘要】
本专利技术通常涉及通过比较存储文档的索引签名和由存储文档的打印版产生的索引签名来索引和/或检索存储的电子文档。
技术介绍
计算和通信技术的发展明显改变了与通过文档传送信息有关的商业行为。现在已经可以在相当长的距离上几乎瞬间地电子化传送格式化的文档了。然而,在商业和个人环境中,大量的浏览和/或编辑是在打印文档上完成的。例如,在工作环境中的会议典型地包括分发打印文档给出席的人们。而且,许多个人宁愿在纸件上阅读和/或编辑文档而不愿在计算机屏幕上阅读和/或编辑。在需要打印大量文档的商业或个人环境中,将这些文档索引到它们各自的电子版是存在问题的。对文档的破坏,包括污点和破损,以及在打印文档上作出的注释都会使得更难于相关打印文档到它们各自的电子版。例如,文档可以在会议上被打印和分发,并且会议服务员可以根据有关会议的思想用钢笔或类似的标记工具连同文档信息一起来注释该文档。然后该文档可能在其被放在文件夹中时被以其它方式折叠、弄脏、和/或破坏并被从会议中传送到不同的地方。此后,该文档可能躺在其它文档堆里几个小时、几天、或甚至几个月。如果想查找该打印文档的电子版,就会需要相当长的时间来查找该电子版。而且,如果找不到该文档的电子版,就需要分配资源来重新录入该文档到计算机中。其它情形还在于,基于文档(例如打印版)的物理版来查找文档的电子版是存在问题的。例如,经销商可以准备并传真购买订单草图给顾客,并且接收到该购买订单的顾客可以通过用钢笔或其它合适标记工具物理上修改该文档来修改传真文档的内容。然后,顾客可以通过传真将修改的文档传回到经销商那里。为了查找该打印文档电子版,经销商必 ...
【技术保护点】
一种用于文档检索和/或索引的系统,其特征在于,它包括:一接收物理文档的至少一部分的已捕捉图像的组件;以及一查找与所述文档的匹配的搜索组件,所述搜索是在产生的图像的单词级拓扑属性上执行的,所产生的图像是一个或多个电子文档的至少 一部分的图像。
【技术特征摘要】
US 2004-1-15 10/758,3701.一种用于文档检索和/或索引的系统,其特征在于,它包括一接收物理文档的至少一部分的已捕捉图像的组件;以及一查找与所述文档的匹配的搜索组件,所述搜索是在产生的图像的单词级拓扑属性上执行的,所产生的图像是一个或多个电子文档的至少一部分的图像。2.根据权利要求1所述的系统,其特征在于,它还包括一产生对应于一个或多个所产生的图像的一个或多个签名、并产生对应于所述文档的已捕捉图像的签名的组件,所述签名标识所产生的图像的单词布局,并且所述搜索是通过比较所产生的图像的签名和所捕捉的文档的图像的签名来执行的。3.根据权利要求2所述的系统,其特征在于,所述签名是散列表和近似散列表中的至少一个。4.根据权利要求3所述的系统,其特征在于,所述散列表和近似散列表中的至少一个包括一与在所产生的图像和所述文档的图像中的至少其中一个内的单词的位置和宽度相关联的密钥。5.根据权利要求2所述的系统,其特征在于,它还包括一计分组件,其分配对应于被搜索的所产生的图像的子集的置信度得分。6.根据权利要求5所述的系统,其特征在于,一具有最高置信度得分的所产生的图像被选择作为与所述文档的已捕捉图像的匹配。7.根据权利要求2所述的系统,其特征在于,对应于所述一个或多个产生的图像的所述签名包括一误差容限。8.根据权利要求2所述的系统,其特征在于,与所述一个或多个产生的图像相关联的所述签名的一部分被与所捕捉的文档的图像的签名的对应部分进行比较。9.根据权利要求8所述的系统,其特征在于,对应于所述一个或多个产生的图像的所述签名被保留以供进一步考虑,所述产生的图像具有阈值数量的与所述文档的已捕捉图像的签名的对应部分的匹配。10.根据权利要求9所述的系统,其特征在于,它还包括一当阈值数量的签名被保留以供进一步考虑时分配置信度得分的组件。11.根据权利要求2所述的系统,其特征在于,对应于所述一个或多个产生的图像的签名和所捕捉的文档的图像的签名是分别至少部分地基于在所产生的图像和所捕捉的文档的图像中的每个单词的至少一部分的位置产生的。12.根据权利要求11所述的系统,其特征在于,对应于所述一个或多个产生的图像的签名和所述文档的已捕捉图像的签名也是分别至少部分地基于在所捕捉的图像和所产生图像中的每个单词的宽度产生的。13.根据权利要求2所述的系统,其特征在于,它还包括一产生与所产生的图像和所述文档的已捕捉图像相关的树形表示的组件,所述树形表示是所产生的图像和所述文档的已捕捉图像的分层表示,其中,所述树形表示传达了所产生的图像的哪些片断和所述文档的图像的哪些片断包括单词;以及一将与所产生的图像相关的树形表示和与所述文档的已捕捉图像相关的树形表示相比较的比较组件。14.根据权利要求1所述的系统,其特征在于,它还包括一减少在所述文档的已捕捉图像中的噪声的组件。15.根据权利要求1所述的系统,其特征在于,它还包括一产生所述文档的已捕捉图像的灰度级图像的组件。16.根据权利要求1所述的系统,其特征在于,它还包括一连接组件,它连接在所产生的图像和所捕捉的图像的单词内的字符,而不连接所产生的图像和所捕捉的图像的单词。17.根据权利要求16所述的系统,其特征在于,所产生的图像和所捕捉的图像是二元图像,所述连接组件对所述二元图像执行像素扩张。18.根据权利要求17所述的系统,其特征在于,所述连接组件改变所述文档的已捕捉图像的分辨率,以便于连接在所述文档的已捕捉图像的单词内的字符而不会连接在所述文档的已捕捉图像内的不同单词。19.根据权利要求1所述的系统,其特征在于,它还包括一在电子文档被打印时自动产生该电子文档的图像的缓存组件。20.根据权利要求19所述的系统,其特征在于,它还包括一推断哪些打印文档应该具有相关联的存储图像的人工智能组件。21.根据权利要求1所述的系统,其特征在于,它还包括一人工智能组件,它至少部分地基于用户状态、用户环境和用户历史中的其中一个从搜索中排除所产生的图像的一个子集。22.根据权利要求1所述的系统,其特征在于,所产生的图像的至少一个与一数据存储中的条目相关联,所述条目包括电子文档页面的一个或多个图像、和一标识该页面的图像的签名,所述签名至少部分地基于该页面的图像内单词的拓扑属性。23.根据权利要求22所述的系统,其特征在于,所述电子文档的页面的一个或多个图像和标识该页面的图像的所述签名与以下的一个或多相关联一标识所述电子文档的位置的URL、所述电子文档、所述电子文档的页面的图像的分层树形表示、所述页面的图像的OCR、与所述页面的图像的访问次数相关的数据、顾客记录、支付信息、和工作流信息。24.一种便于索引和/或检索文档的方法,其特征在于,它包括产生电子文档的多个图像,所述电子文档的图像的至少一个对应于一打印文档;在一文档被打印之后,捕捉该打印文档的图像;接收一请求检索对应于所述打印文档的图像的电子文档的查询;产生对应于一个或多个所产生的图像的至少一部分的一个或多个签名,所述签名是至少部分地基于所述图像内的单词布局产生的;产生一对应于所捕捉的图像的至少一部分的签名,所述签名是至少...
【专利技术属性】
技术研发人员:DM巴杰龙,PY西马德,VC斯里瓦斯塔瓦,
申请(专利权)人:微软公司,
类型:发明
国别省市:US[美国]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。