文档的同本识别方法及装置制造方法及图纸

技术编号:11469441 阅读:69 留言:0更新日期:2015-05-18 02:48
本发明专利技术公开了文档的同本识别方法及装置,所述方法包括:根据待识别文档的章节目录计算所述文档对应的simhash,并根据所述simhash对所述文档进行分组,再对所述分组后的文档进行同本判定以识别出属于同本的文档。本方法避免采用文档的正文数据进行同本判定,而是利用文档的章节目录对应的simhash来反映文档正文之间的相似程度,既缩小了计算的规模,同时也具有很高的准确性。并且根据simhash对文档分组后再进行同本判定,也能进一步减小对大量的文档之间进行比较运算的运算量。本方法能在海量的互联网文档中,识别出属于同一实质内容的文档,为后续对文档进行分类管理及质量排序等应用功能提供了技术支持。

【技术实现步骤摘要】
文档的同本识别方法及装置
本专利技术涉及互联网
,特别是涉及文档的同本识别方法及装置。
技术介绍
随着网络技术的飞速发展,越来越多的作者在互联网上发表文学作品。有些作者在连载的过程中,因为更换网站发表或其他原因,将作品名进行修改后继续连载,也有一些网站将其他网站已发表的作品的书名或者章节目录稍微修改后重新发表,而实际上这些作品的文档正文部分的内容都是一样的。然而用户按照常规的搜索方法搜索更名前的作品时,通常无法搜索到更名后的这本作品的文档,即使是能够搜索到更名后的文档,但浏览器无法知道这些文档其实是同一个作品,因此就无法为用户优先提供高质量的版本,从而影响用户的阅读体验。因此,亟需在海量的互联网文学作品中,识别出属于同一作品的文档(简称同本识别),以便于进一步分类管理。但申请人进行研究后发现,目前现有技术中尚无对互联网中的文学作品进行同本识别的方法。
技术实现思路
有鉴于此,本专利技术实施例提供了文档的同本识别方法及装置,以解决现有技术尚无法对互联网中的文学作品进行同本识别的问题。为了解决上述技术问题,本专利技术实施例公开了如下技术方案:一方面,提供了一种文档的同本识别方法,其特征在于,所述方法包括:根据待识别文档的章节目录计算所述文档对应的simhash;根据所述simhash对所述文档进行分组;对所述分组后的文档进行同本判定以识别出属于同本的文档。可选的,所述根据待识别文档的章节目录计算所述文档对应的simhash包括:预设用于计算所述simhash的章节目录序号;根据所述序号对应的章节目录计算所述文档的simhash。可选的,如果目标文档的章节目录的最大序号小于所述预设的章节目录序号,则以所述最大序号对应的章节目录计算所述目标文档的simhash。可选的,所述根据所述simhash对所述文档进行分组包括:判断同一章节目录序号对应的simhash之间的海明距离是否小于预设的第一门限,如果是,则将对应的所述文档划分到同一相似集合中;或者判断同一章节目录序号对应的simhash之间在预设位上的值是否对应相同,如果是,则将对应的所述文档划分到同一相似集合中;判断不同章节目录序号的对应的相似集合之间是否包含任何相同文档,如果是,则将对应的所述不同章节目录序号的相似集合进行并,直至不同章节目录序号的任意相似集合之间不包含任何相同文档,则同一相似集合中的文档即属于同一组。可选的,对所述分组后的文档进行同本判定以识别出属于同本的文档包括:对同一组内的文档进行同本判定以获得同本文档集合;对所述同本文档集合之间进行同本合并以获得属于同本的文档。可选的,所述对同一组内的文档进行同本判定以获得同本文档集合包括:判断同一组内的文档对应的simhash之间的海明距离是否小于预设的第二门限,如果是,则将对应的文档划分到同一个同本文档集合中。可选的,所述对同一组内的文档进行同本判定以获得同本文档集合包括:判断同一组内的文档对应的文档名之间是否满足预设的第一匹配条件,如果是,则将对应的文档划分到同一个同本文档集合中,或者判断同一组内的文档对应的章节目录之间是否满足预设的第二匹配条件,如果是,则将对应的文档划分到同一个同本文档集合中。可选的,所述对所述同本文档集合之间进行同本合并以获得属于同本的文档包括:判断任意同本文档集合之间是否包含任何相同文档,如果是,则将对应的同本文档集合合并,直至任意同本文档集合之间都不包含任何相同文档,则属于同一同本文档集合的文档即为同本的文档。另一方面,提供了一种文档的同本识别装置,所述装置包括:计算单元,用于根据待识别文档的章节目录计算所述文档对应的simhash;分组单元,用于根据所述simhash对所述文档进行分组;识别单元,用于对所述分组单元分组后的文档进行同本判定以识别出属于同本的文档。可选的,所述计算单元用于预设所述simhash的章节目录序号,并根据所述序号对应的章节目录计算所述文档的simhash。可选的,所述计算单元用于当目标文档的章节目录的最大序号小于所述预设的章节目录序号时,则以所述最大序号对应的章节目录计算所述目标文档的simhash。可选的,所述分组单元包括:判断分组子单元,用于判断同一章节目录序号对应的simhash之间的海明距离是否小于预设的第一门限,如果是,则将对应的所述文档划分到同一相似集合中;或者用于判断同一章节目录序号对应的simhash之间在预设位上的值是否对应相同,如果是,则将对应的所述文档划分到同一相似集合中;分组合并子单元,用于判断不同章节目录序号的对应的相似集合之间是否包含任何相同文档,如果是,则将对应的所述不同章节目录序号的相似集合进行并,直至不同章节目录序号的任意相似集合之间不包含任何相同文档,则同一相似集合中的文档即属于同一组。可选的,所述识别单元包括:同本判定子单元,用于对同一组内的文档进行同本判定以获得同本文档集合;同本合并子单元,用于对所述同本文档集合之间进行同本合并以获得属于同本的文档。可选的,所述同本判定子单元用于判断同一组内的文档对应的simhash之间的海明距离是否小于预设的第二门限,如果是,则将对应的文档划分到同一个同本文档集合中。可选的,所述同本判定子单元用于判断同一组内的文档对应的文档名之间是否满足预设的第一匹配条件,如果是,则将对应的文档划分到同一个同本文档集合中,或者用于判断同一组内的文档对应的章节目录之间是否满足预设的第二匹配条件,如果是,则将对应的文档划分到同一个同本文档集合中。可选的,所述同本合并子单元用于判断任意同本文档集合之间是否包含任何相同文档,如果是,则将对应的同本文档集合合并,直至任意同本文档集合之间都不包含任何相同文档,则属于同一同本文档集合的文档即为同本的文档。本专利技术实施例提供的文档的同本识别方法及装置,根据待识别文档的章节目录计算所述文档对应的simhash,并根据所述simhash对所述文档进行分组,再对所述分组后的文档进行同本判定以识别出属于同本的文档。该技术方案避免采用文档的正文数据进行同本判定,而是利用文档的章节目录对应的simhash来反映文档正文之间的相似程度,既缩小了计算的规模,同时也具有很高的准确性。并且根据simhash对文档分组后再进行同本判定,也能进一步减小对大量的文档之间进行比较运算的运算量。本方案能在海量的互联网文档中,识别出属于同一实质内容的文档,为后续对文档进行分类管理及质量排序等应用功能提供了技术支持。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术提供的文档的同本识别方法一个实施例的流程示意图;图2为本专利技术提供的文档的同本识别方法的另一个实施例的流程示意图;图3为本专利技术提供的文档的同本识别方法的另一个实施例的流程示意图;图4为本专利技术提供的文档的同本识别装置的一个实施例的结构示意图;图5为本专利技术提供的文档的同本识别装置的分组单元402的一个实施例的结构示意图;图6为本专利技术提供的文档的同本识别装置的识别单元403的一个实施例的结构示意图。具体实施方式首先对文档的同本识别方法的实施例进行本文档来自技高网...
文档的同本识别方法及装置

【技术保护点】
一种文档的同本识别方法,其特征在于,所述方法包括:根据待识别文档的章节目录计算所述文档对应的simhash;根据所述simhash对所述文档进行分组;对所述分组后的文档进行同本判定以识别出属于同本的文档。

【技术特征摘要】
1.一种文档的同本识别方法,其特征在于,所述方法包括:针对每个预设章节目录序号,计算待识别文档中不大于所述预设章节目标序号的每个章节目录的simhash;根据同一预设章节目录序号对应的所有simhash对所述文档进行分组,包括:判断同一章节目录序号对应的simhash之间的海明距离是否小于预设的第一门限,如果是,则将对应的所述文档划分到同一相似集合中;或者,判断同一章节目录序号对应的simhash之间在预设位上的值是否对应相同,如果是,则将对应的所述文档划分到同一相似集合中,判断不同章节目录序号的对应的相似集合之间是否包含任何相同文档,如果是,则将对应的所述不同章节目录序号的相似集合进行合并,直至不同章节目录序号的任意相似集合之间不包含任何相同文档,则同一相似集合中的文档即属于同一组;对所述分组后的文档进行同本判定以识别出属于同本的文档。2.根据权利要求1所述的方法,其特征在于,如果目标文档的章节目录的最大序号小于所述预设的章节目录序号,则以所述最大序号对应的章节目录计算所述目标文档的simhash。3.根据权利要求1至2任意一项所述的方法,其特征在于,对所述分组后的文档进行同本判定以识别出属于同本的文档包括:对同一组内的文档进行同本判定以获得同本文档集合;对所述同本文档集合之间进行同本合并以获得属于同本的文档。4.根据权利要求3所述的方法,其特征在于,所述对同一组内的文档进行同本判定以获得同本文档集合包括:判断同一组内的文档对应的simhash之间的海明距离是否小于预设的第二门限,如果是,则将对应的文档划分到同一个同本文档集合中。5.根据权利要求3所述的方法,其特征在于,所述对同一组内的文档进行同本判定以获得同本文档集合包括:判断同一组内的文档对应的文档名之间是否满足预设的第一匹配条件,如果是,则将对应的文档划分到同一个同本文档集合中,或者判断同一组内的文档对应的章节目录之间是否满足预设的第二匹配条件,如果是,则将对应的文档划分到同一个同本文档集合中。6.根据权利要求3所述的方法,其特征在于,所述对所述同本文档集合之间进行同本合并以获得属于同本的文档包括:判断任意同本文档集合之间是否包含任何相同文档,如果是,则将对应的同本文档集合合并,直至任意同本文档集合之间都不包含任何相同文档,则属于同一同本文档集合的文档即为同本的文档。7....

【专利技术属性】
技术研发人员:黄胤人陈萌辉李媛媛
申请(专利权)人:广州神马移动信息科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1