重复文档检测及表示功能制造技术

技术编号:2836479 阅读:171 留言:0更新日期:2012-04-11 18:40
很多公司提供了使用户进行计算机化的文档检索的在线检索设 备。不幸的是,这些检索通常提供包括重复的文档,即彼此完全或 实质上相同的文档的结果。这个问题在例如检索新闻报道时尤其令 人烦恼。此外,重复文档混杂在搜索结果中,让用户去人工应付对 它们进行复杂的标识和/或筛选。本发明专利技术提供了有助于在搜索结果中 重复文档的标识和/或分组的系统、方法和软件。一示范性系统包括 基于长度、时间和/或内容分量产生文档签名的签名生成模块;使用 文档签名来标识“精确的”或“模糊的”重复文档的实时复本检测 模块;以及控制搜索结果中的重复文档如何被表示或抑制的用户界 面或表示模块。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术的各种实施例涉及信息检索系统,例如那些提供新闻文档或其它有关内容的系统。
技术介绍
一些公司如Thomson Legal & Regulatory,Inc.of St.Paul,Minnesota(经营与Thomson West公司相同的业务)搜集并存储各种类型的文档,包括来自世界各地的新闻,用于在名为WestlawTM的数据库和检索工具的系统中在线访问。该Westlaw系统使用户能够检索超过1亿的文档。本专利技术人认识到的一个问题是对新闻或其它数据库进行的检索经常提供包括重复文档——即彼此完全或实质相同的文档的结果。该问题发端于新闻提供商,如出售它们的用于再版的新闻报道给全世界的多个出版者的美联社(Associated PressAP)。这转而意味着提供给用户对来自大量出版商的新闻报道的集合的可检索访问的系统,如Westlaw系统,通常在它们的搜索结果中表示给用户许多重复的新闻报道副本。不幸的是,该重复的报道一般是根据与其它不同的报道的相关性混合的,留给用户的是人工地对付标识和/或筛选它们的复杂问题。从而,本专利技术认识到需要有效地致力于信息检索系统如Westlaw系统如何应付其文档集合中尤为重要的是在其用户的搜索结果中重复文档的存在。
技术实现思路
为满足该需要和其它需要,本专利技术提供了有助于在搜索结果中将重复文档标识和/或分组的系统、方法和软件。一示范性系统包括三个主要部分1)基于长度、时间和/或内容分量来生成文档签名的签名生成模块;2)使用文档签名来标识“精确的”或“模糊的”重复文档的重复检测模块;以及3)允许用户控制它们的搜索结果中的重复文档如何被表示的用户界面(或表示)模块。例如,用户可选择是否从它们的搜索结果中排除重复文档或在结果表示中分组重复文档。在一些实施例中,标识和分组最终简化了用户理解和访问包含重复文档的搜索结果的过程。附图说明图1是本专利技术一个或多个实施例的示范性信息检索系统100的示意图;图2是操作系统100及本专利技术一个或多个实施例的一个或多个示范性方法的流程图;图3是本专利技术一个或多个实施例的示范性文档签名及IDF表的示意图; 图4是本专利技术一个或多个实施例的示范性查询窗400的示图;图5是本专利技术一个或多个实施例的示范性用户界面500的示图;图6是本专利技术一个或多个实施例的示范性用户界面600的示图;图7是本专利技术一个或多个实施例的示范性HTML格式电子消息的示图;图8是本专利技术一个或多个实施例的示范性用户界面800的示图;以及图9是本专利技术一个或多个实施例的示范性归仓(binning)方案的示意图。具体实施例方式本说明书参照并结合上述的附图描述了本专利技术一个或多个具体实施例。所提供的非限制的示范型的本专利技术的这些实施例被足够详细地说明和描述,以使本领域技术人员实现或实践本专利技术。于是,在适当的地方,为使本专利技术更加清晰,本说明书会省略本领域技术人员已知的某些信息。示范性定义本说明书包括很多词语,它们具有源于其技术应用或来自说明书语境的意思。然而,为进一步帮助阅读,提供了下面示范性的定义。“文档”指机器可读数据如文本数据的任何可寻址排列。“数据库”包括文档的任何逻辑排列。在一些实施例中,一个或多个数据库与一个或多个其它数据库共享内容。“复本”一般指任何与至少一个其它文档具有大量相同内容的文档。时间、长度和/或内容准则被用于判定一个文档是否是另一个文档的复本。根据内容准则,一些实施例中标识一组文档的各文档中的一组最罕见的词或其它特征并认为那些在相似的相对位置上具有同一组最罕见词的文档为“精确”复本。其它实施例中标识各文档中的一组最罕见的词,并将超过这些罕见词组中的重叠阈值的文档的文档视为“模糊”复本。示范性信息检索系统图1表示示范性的在线信息检索系统100。系统100包括一个或多个数据库110、一个或多个服务器120及一个或多个存取设备130。数据库110包括代表数据库112、114和116。在示范性实施例中,数据库112包括新闻报道,例如商业或金融信息;数据库114包括科技信息;数据库116包括知识产权信息,例如美国及外国专利。在一些实施例中,一个或多个数据库根据金融、科学或保健数据来组织。采用一个或多个电子、磁性或光学数据存储设备的示范性形式的数据库112、114和116包含112N、114N和116N或以其他方式与索引相关联。各索引包括与对应的文档地址、标识符和其它常规信息相关联的词和短语。数据库112、114和116通过无线或有线通信网络如局域网、广域网、专用网或虚拟专用网与服务器120连接或可与之连接。服务器120一般代表一个或多个用于以网页形式或其它具有相关applet、ActiveX控制、远程调用对象或其它有关的或类似的软件及数据结构的标记语言形式来提供数据以服务各种“厚度(thickness)”的客户机。更具体地说,服务器120包括处理器模块121、存储器模块122、搜索模块123、用户数据库124、签名数据库125及复本处理模块126。处理器模块121包括一个或多个局部或分布式处理器、控制器或虚拟机。在此示范性实施例中,处理模块121采用任何便利的或理想的形式。采用一个或多个电子、磁性或光学数据存储设备的示范性形式的存储模块122包含搜索模块123、用户数据库124、签名数据库125和复本处理模块126。搜索模块123包括一个或多个搜索引擎和有关的用户界面组件,用于接收并处理用户对一个或多个数据库110的查询。在此示范性实施例中,与搜索模块123相关联的一个或多个搜索引擎提供布尔或自然语言检索功能。用户数据库124包括用于控制、支配和管理充值付款(pay-as-you-go)或基于收费的数据库110访问。在此示范性实施例中,用户数据库124包括一个或多个复本首选项数据结构,其中数据结构1241是代表。数据结构1241包括与一个或多个复本处理首选项如首选项1241B、1241C和1241D逻辑相关的客户或用户标识符部分1241A。首选项1241B包括在检索选择数据库时控制复本检测是启用或禁用的默认值。首选项1241C包括在向外部输出搜索结果时例如在打印、存储或电邮期间控制复本是否被包括的默认值。首选项1241D包括在复本检测期间控制两个或更多复本文档定义和/或检测算法中哪个被使用的默认值。在一些实施例中,附加的首选项被存储以控制复本检测或表示功能的一个或多个方面,例如一组复本文档中的最长的、最近的或最相关的文档哪个被首先列出。签名数据库125包括一个或多个数据库110中各文档的一个或多个文档签名数据结构,如示范性数据结构1251。在此示范性实施例中,数据结构1251包括与一个或多个长度相关的字段或部分1251B、一个或多个时间相关的字段或部分1251C和/或一个或多个内容相关的字段或部分1251D逻辑相关的文档标识符字段或部分1251A。(如本文中使用的,时间相关的字段一般包含时间和/或日期)。这些字段的结构和内容由复本处理模块126确定。复本处理模块126包括签名生成模块1261、复本检测模块1262和复本表示模块1263。(在一些实施例中,软件模块或它们的组件分布在多个服务器上。)签名生成模块1261包括一个或多个逆文本频率指数(idf)表,其中通常本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】2004.8.23 US 60/603,762;2004.11.1 US 60/623,975;201.一种信息检索系统,包括一个或多个数据库;一个或多个协助客户通过网络访问数据库的服务器,各服务器包含查询定义部件,协助用户提交查询并协助用户选择与包含一个或多个其它搜索结果文档的重复内容的搜索结果文档之识别相关联的选项;以及复本判定部件,用于判定一个或多个搜索结果文档是否包括一个或多个其它搜索结果文档内容中的重复内容,所述复本判定部件包含用于比较第一和第二文档各自的第一和第二特征向量的部件,各特征向量包含多个从各自文档中选择的特征的等长二进制表示,各二进制表示基于一个或多个数据库的逆文本频率指数(idf)表内的特征中的一个对应特征的顺序位置;以及用于基于第一和第二特征向量的比较结果来判定第一和第二文档是否为复本的部件,以及用于基于选定的选项控制搜索结果文档的显示的部件,至少一个显示结果被指示为包含结果内一个或多个其它文档内容中的重复内容。2.权利要求1所述的系统,其中所述服务器还包含用于比较第一和第二文档各自的第一和第二长度的部件,以及只根据具有预定关系的第一和第二长度来比较第一和第二文档各自的第一和第二特征向量的部件。3.权利要求1所述的系统,其中各特征向量包含至少30个从各自文档中选择的词,并且所述复本判定部件在第一和第二特征向量中至少80%的词匹配时判定文档为复本。4.权利要求1所述的系统,其中idf表以idf值的降序排序。5.权利要求1所述的系统,其中各部件包含一组或多组机器可读指令。6.一种运行信息检索系统的方法,包括比较第一和第二文档各自的第一和第二特征向量,各特征向量...

【专利技术属性】
技术研发人员:J·G·康拉德J·R·S·克劳森J·林
申请(专利权)人:汤姆森环球资源公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术