文档的同本识别方法及装置制造方法及图纸

技术编号：11469441 阅读：69 留言：0更新日期：2015-05-18 02:48

本发明专利技术公开了文档的同本识别方法及装置，所述方法包括：根据待识别文档的章节目录计算所述文档对应的simhash，并根据所述simhash对所述文档进行分组，再对所述分组后的文档进行同本判定以识别出属于同本的文档。本方法避免采用文档的正文数据进行同本判定，而是利用文档的章节目录对应的simhash来反映文档正文之间的相似程度，既缩小了计算的规模，同时也具有很高的准确性。并且根据simhash对文档分组后再进行同本判定，也能进一步减小对大量的文档之间进行比较运算的运算量。本方法能在海量的互联网文档中，识别出属于同一实质内容的文档，为后续对文档进行分类管理及质量排序等应用功能提供了技术支持。

全部详细技术资料下载

【技术实现步骤摘要】
文档的同本识别方法及装置
本专利技术涉及互联网
，特别是涉及文档的同本识别方法及装置。
技术介绍
随着网络技术的飞速发展，越来越多的作者在互联网上发表文学作品。有些作者在连载的过程中，因为更换网站发表或其他原因，将作品名进行修改后继续连载，也有一些网站将其他网站已发表的作品的书名或者章节目录稍微修改后重新发表，而实际上这些作品的文档正文部分的内容都是一样的。然而用户按照常规的搜索方法搜索更名前的作品时，通常无法搜索到更名后的这本作品的文档，即使是能够搜索到更名后的文档，但浏览器无法知道这些文档其实是同一个作品，因此就无法为用户优先提供高质量的版本，从而影响用户的阅读体验。因此，亟需在海量的互联网文学作品中，识别出属于同一作品的文档(简称同本识别)，以便于进一步分类管理。但申请人进行研究后发现，目前现有技术中尚无对互联网中的文学作品进行同本识别的方法。
技术实现思路
有鉴于此，本专利技术实施例提供了文档的同本识别方法及装置，以解决现有技术尚无法对互联网中的文学作品进行同本识别的问题。为了解决上述技术问题，本专利技术实施例公开了如下技术方案：一方面，提供了一种文档的同本识别方法，其特征在于，所述方法包括：根据待识别文档的章节目录计算所述文档对应的simhash；根据所述simhash对所述文档进行分组；对所述分组后的文档进行同本判定以识别出属于同本的文档。可选的，所述根据待识别文档的章节目录计算所述文档对应的simhash包括：预设用于计算所述simhash的章节目录序号；根据所述序号对应的章节目录计算所述文档的simhash。可选的，如果目标文档的章节目录...
文档的同本识别方法及装置

【技术保护点】
一种文档的同本识别方法，其特征在于，所述方法包括：根据待识别文档的章节目录计算所述文档对应的simhash；根据所述simhash对所述文档进行分组；对所述分组后的文档进行同本判定以识别出属于同本的文档。

【技术特征摘要】
1.一种文档的同本识别方法，其特征在于，所述方法包括：针对每个预设章节目录序号，计算待识别文档中不大于所述预设章节目标序号的每个章节目录的simhash；根据同一预设章节目录序号对应的所有simhash对所述文档进行分组,包括：判断同一章节目录序号对应的simhash之间的海明距离是否小于预设的第一门限，如果是，则将对应的所述文档划分到同一相似集合中；或者，判断同一章节目录序号对应的simhash之间在预设位上的值是否对应相同，如果是，则将对应的所述文档划分到同一相似集合中，判断不同章节目录序号的对应的相似集合之间是否包含任何相同文档，如果是，则将对应的所述不同章节目录序号的相似集合进行合并，直至不同章节目录序号的任意相似集合之间不包含任何相同文档，则同一相似集合中的文档即属于同一组；对所述分组后的文档进行同本判定以识别出属于同本的文档。2.根据权利要求1所述的方法，其特征在于，如果目标文档的章节目录的最大序号小于所述预设的章节目录序号，则以所述最大序号对应的章节目录计算所述目标文档的simhash。3.根据权利要求1至2任意一项所述的方法，其特征在于，对所述分组后的文档进行同本判定以识别出属于同本的文档包括：对同一组内的文档进行同本判定以获得同本文档集合；对所述同本文档集合之间进行同本合并以获得属于同本的文档。4.根据权利要求3所述的方法，其特征在于，所述对同一组内的文档进行同本判定以获得同本文档集合包括：判断同一组内的文档对应的simhash之间的海明距离是否小于预设的第二门限，如果是，则将对应的文档划分到同一个同本文档集合中。5.根据权利要求3所述的方法，其特征在于，所述对同一组内的文档进行同本判定以获得同本文档集合包括：判断同一组内的文档对应的文档名之间是否满足预设的第一匹配条件，如果是，则将对应的文档划分到同一个同本文档集合中，或者判断同一组内的文档对应的章节目录之间是否满足预设的第二匹配条件，如果是，则将对应的文档划分到同一个同本文档集合中。6.根据权利要求3所述的方法，其特征在于，所述对所述同本文档集合之间进行同本合并以获得属于同本的文档包括：判断任意同本文档集合之间是否包含任何相同文档，如果是，则将对应的同本文档集合合并，直至任意同本文档集合之间都不包含任何相同文档，则属于同一同本文档集合的文档即为同本的文档。7....

【专利技术属性】
技术研发人员：黄胤人，陈萌辉，李媛媛，
申请(专利权)人：广州神马移动信息科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人