检测复制和近似复制的文件制造技术

技术编号：8453007 阅读：184 留言：0更新日期：2013-03-21 16:15

一种检测复制和近似复制的文件的方法和系统。可以通过以下方式来识别近似复制的文档：使用第一技术来处理已接受的文档集合以确定近似复制的文档的第一集合，以及使用第二技术来处理所述第一集合以确定近似复制的文档的第二集合。第一技术可以依赖于标志次序，而第二技术可以独立于次序。第一技术可以独立于标志频率，而第二技术可以依赖于频率。第一技术可以使用基于两个文档的词语或标志的子集的表示来确定这两个文档是否是近似复制件，而第二技术可以使用基于两个文档的所有词语或标志的表示来确定这两个文档是否是近似复制件。第一技术可以使用集合相交来确定文档是否是近似复制件，而第二技术可以使用随机投射来确定文档是否是近似复制件。

全部详细技术资料下载

【技术实现步骤摘要】
检测复制和近似复制的文件本申请是国际申请日为2007年8月3日、国际申请号为PCT/US2007/017487的 PCT国际申请的、进入中国国家阶段的国家申请号为200780036634. O、题为“检测复制和近似复制的文件”的专利申请的分案申请。§1.专利技术背景§1.1
本专利技术一般涉及信息管理和检索。更具体地，本专利技术涉及诸如在要搜索的文档库中检测以及可选地移除复制和近似复制的信息或内容。§1.
技术介绍
在以下，术语“文档”应当被广义地解释并且可以包括诸如网页、文本文件、多媒体文件、对象特征、链接结构等内容。并且，应当注意，当检测到近似复制的文档时，作为结果，也将检测到准确复制的文档(虽然这样的准确复制件可能不一定与近似复制件相区分)。检测近似复制的文档具有许多潜在的应用。例如，复制或近似复制的文档可以指示剽窃或著作权侵权。近似复制的文档检测的一个重要应用在于信息存储和检索的环境中。存在检测是准确复制件的文档的高效技术。检测文档是否是近似复制件则更为困难，尤其是在文档的大型集合中。例如，因特网整体差不多包括几十亿的“网站”文档。在以下1. 2.1中，介绍了在因特网上的复制和近似复制的文档的源。然后，在以下 §1.2.2中，介绍了由这些复制和近似复制的文档带来的对于终端用户和对于辅助终端用户的实体的问题。最后，在以下§1.2. 3中，介绍了用于在大型文档集合的环境中检测复制和近似复制的文档的在先技术，以及所发现的这些技术的缺点。§ 1.2.1在因特网上的复制和近似复制的文档的源在因特网上，万维网(被称为“环球网(the Web)”)可以包括...

【技术保护点】
一种计算机实现的方法，包括：接受文档的集合；以及对所述文档的集合进行处理以确定近似复制的文档，所述处理包括对于所述文档的集合中的一个或多个文档对：确定每个文档对中的文档是否来自相同的网站；以及当文档对是来自相同的网站时，使用第一文档相似性技术确定每个文档对是否是近似复制的文档，当文档对是来自不同的网站时，使用第二文档相似性技术确定每个文档对是否是近似复制的文档，其中所述第一文档相似性技术和所述第二文档相似性技术是不同的文档相似性技术。

【技术特征摘要】
...

【专利技术属性】
技术研发人员：莫尼卡·H·亨津格尔，
申请(专利权)人：谷歌公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人