当前位置: 首页 > 专利查询>谷歌公司专利>正文

检测复制和近似复制的文件制造技术

技术编号:8453007 阅读:184 留言:0更新日期:2013-03-21 16:15
一种检测复制和近似复制的文件的方法和系统。可以通过以下方式来识别近似复制的文档:使用第一技术来处理已接受的文档集合以确定近似复制的文档的第一集合,以及使用第二技术来处理所述第一集合以确定近似复制的文档的第二集合。第一技术可以依赖于标志次序,而第二技术可以独立于次序。第一技术可以独立于标志频率,而第二技术可以依赖于频率。第一技术可以使用基于两个文档的词语或标志的子集的表示来确定这两个文档是否是近似复制件,而第二技术可以使用基于两个文档的所有词语或标志的表示来确定这两个文档是否是近似复制件。第一技术可以使用集合相交来确定文档是否是近似复制件,而第二技术可以使用随机投射来确定文档是否是近似复制件。

【技术实现步骤摘要】
检测复制和近似复制的文件本申请是国际申请日为2007年8月3日、国际申请号为PCT/US2007/017487的 PCT国际申请的、进入中国国家阶段的国家申请号为200780036634. O、题为“检测复制和近似复制的文件”的专利申请的分案申请。§1.专利技术背景§1.1
本专利技术一般涉及信息管理和检索。更具体地,本专利技术涉及诸如在要搜索的文档库中检测以及可选地移除复制和近似复制的信息或内容。§1.
技术介绍
在以下,术语“文档”应当被广义地解释并且可以包括诸如网页、文本文件、多媒体文件、对象特征、链接结构等内容。并且,应当注意,当检测到近似复制的文档时,作为结果, 也将检测到准确复制的文档(虽然这样的准确复制件可能不一定与近似复制件相区分)。检测近似复制的文档具有许多潜在的应用。例如,复制或近似复制的文档可以指示剽窃或著作权侵权。近似复制的文档检测的一个重要应用在于信息存储和检索的环境中。 存在检测是准确复制件的文档的高效技术。检测文档是否是近似复制件则更为困难,尤其是在文档的大型集合中。例如,因特网整体差不多包括几十亿的“网站”文档。在以下1. 2.1中,介绍了在因特网上的复制和近似复制的文档的源。然后,在以下 §1.2.2中,介绍了由这些复制和近似复制的文档带来的对于终端用户和对于辅助终端用户的实体的问题。最后,在以下§1.2. 3中,介绍了用于在大型文档集合的环境中检测复制和近似复制的文档的在先技术,以及所发现的这些技术的缺点。§ 1.2.1在因特网上的复制和近似复制的文档的源在因特网上,万维网(被称为“环球网(the Web)”)可以包括以不同的形式或在不同的地方复制的相同的文档。(自然地,其它的网络或甚至独立的系统可以具有复制的文档)。此处介绍这样的复制的源。首先,一些文档在环球网的不同的站点处被“镜像”。这样的镜像被用来在许多用户试图在同一时间请求同一个文档时降低潜在的延迟,和/或将网络等待时间最小化(例如,通过将网页在本地缓存)。第二,一些文档将具有带不同格式的不同版本。例如,给定的文档可以具有纯文本和HTML (超文本标记语言)版本使得用户能够以他们想要的形式呈现(render)或下载内容。随着越来越多的不同设备(例如,计算机、移动电话、个人数字助理等)被用来访问因特网,给定的文档可以具有越来越多的带不同格式的不同的版本(仅为文本、文本加其它媒体-rf* ) O第三,在文档的前面和后面经常附有与其在环球网上的位置有关的信息、日期、其最近被修改的日期、版本、标题、分层分类路径(可以将网页分类在网站分层中的一个以上的类别下)等。第四,在一些实例中,使用一致(consistent)的词语替换从现有的文档生成新的文档。例如,可以通过词语替换将网站“重新包装(re-brand)”用于不同的受众。最后,一些网页将可从环球网上的另一个源获得的内容聚合或合并。§1. 2. 2由复制和近似复制的文档带来的问题复制和近似复制的文档给访问(例如,来自环球网的)信息的人们和帮助人们访问期望的信息的实体(例如,搜索引擎公司)两者带来了潜在的问题。以下介绍了这些潜在的问题。虽然人们继续使用计算机来输入、操作和存储信息,考虑到数据存储、网间互联 (例如,因特网)、信息的互链接和交叉引用(例如,使用超文本链接冲的发展,人们正以不断扩展的范围使用计算机(或更一般地,信息访问机器)来访问信息。搜索引擎已被用来帮助用户发现期望的信息。搜索引擎通常根据用户查询搜索数据库化的内容或“网站”或“网页”。响应于用户的查询,返回一个以排名排序的列表,该列表通常包括所发现的内容的简单描述以及指向所发现的内容的超文本链接(即具有相关联的URL的文本)。该列表的排名排序通常是基于出现在查询中的词语和出现 在内容中的词语的匹配。从用户的角度,复制和近似复制的文档带来问题。更具体地,当用户向搜索引擎提交查询时,绝大部分都不希望到具有大量冗余信息的网页的链接(以及其描述)。例如,搜索引擎通常通过提供以十条为一组的结果来对搜索查询作出响应。如果返回了具有复制内容的页面,在一个组中的许多结果可能包括相同的内容。这样,需要避免提供与具有复制内容的网页相关联(例如具有到具有复制内容的网页的链接)的搜索结果的技术。从托管搜索引擎的实体的角度,复制和近似复制的文档也带来问题一给予终端用户他们所想要的,为其中一条。为了理解由复制和近似复制的文档带来的其它的一些潜在问题,首先介绍一些搜索引擎技术。大部分搜索引擎执行三个主要功能(I)爬行环球网;(2)索引环球网的内容;以及(3)使用所述索引生成搜索结果来对搜索查询作出响应。由于有大量的可用的信息,这三个主要功能在较大程度上被自动化。爬行操作将词语或短语与文档(例如网页)关联起来, 而索引操作将文档(例如网页)与词语或短语关联起来。搜索操作进而(I)使用该索引来找到包含搜索查询的各种词语的文档(例如,网页),以及(2)对根据一些探试法找到的文档进行排名或排序。前面讲到,环球网可以包括以不同的形式或在环球网上的不同地方复制的相同的文档。例如,如在以上§ 1.2.1所介绍的,可以在环球网的不同的站点处“镜像”文档,文档可以具有多个不同的格式,以使用户能够以他们喜好的形式呈现或下载内容,文档可以具有在其前或其后附有不同信息的不同版本,一些文档可以是使用一致的词语替换而从其它文档生成的,并且一些文档可以将可从环球网上的另一个源获得的文档聚合或合并。期望消除这样的复制件或近似复制件。除了消除复制或近似复制的文档以达到用户期望和愿望之外,对于搜索引擎托管实体而言消除复制或近似复制的文档也是所期望的,以(I)降低存储要求(例如,对于索引和从该索引导出的数据结构),以及(2)降低处理索引、查询等所需要的时间和/或计算资源。鉴于上述内容,需要检测(以及消除)近似复制的文档的技术。§1.2.3用于检测复制和近似复制的文档的已知的技术以及其已知的局限性一种朴素的解决方案是将所有的对与文档相比较。由于这对于大型的数据集极其昂贵,曼巴(U. Manber, " Finding similar files in a large file system, " Proc. of the USENIX Winter 1994 Technical Conference (Tan. 1994))和亨策 (N. Heintze, "Scalable Document Fingerprinting, "Proc. of the 2nd USENIX Workshop on Electronic Commerce (Nov 1996))提出了用于检测近似复制的文档的算法,这些算法减少了比较的数量。这两个算法在相邻字符的序列上运用。布灵等人(S. Brin, J. Davis, and H.Garcia-Molina, 〃Copy Detection Mechanisms for Digital Documents, "1995 ACM SIGMOD International Conference on Management of Data, pp. 398-409(May 1995))开始使用词语序列来检测著作权侵权。布劳德等人(A. B本文档来自技高网...

【技术保护点】
一种计算机实现的方法,包括:接受文档的集合;以及对所述文档的集合进行处理以确定近似复制的文档,所述处理包括对于所述文档的集合中的一个或多个文档对:确定每个文档对中的文档是否来自相同的网站;以及当文档对是来自相同的网站时,使用第一文档相似性技术确定每个文档对是否是近似复制的文档,当文档对是来自不同的网站时,使用第二文档相似性技术确定每个文档对是否是近似复制的文档,其中所述第一文档相似性技术和所述第二文档相似性技术是不同的文档相似性技术。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:莫尼卡·H·亨津格尔
申请(专利权)人:谷歌公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1