一种大规模文本增量模糊去重方法、装置、设备及介质制造方法及图纸

技术编号：42647921 阅读：29 留言：0更新日期：2024-09-06 01:42

本申请涉及一种大规模文本增量模糊去重方法、装置、设备及介质。基于该全局字典和预设哈希函数，为不同文档集中的文档生成文档签名，从而保证不同文档集中的相同内容在文档签名上保持一致，从而方便进行跨文档集的重复内容检测。由于仅针对第一文档进行文档签名的计算，而无需对已有第二文档的归档文档签名重新计算，从而大大减少了特征计算的数量级，进一步提高了对增量文档的去重处理效率。由于采用了文档签名作为衡量文档相似性的特征，即通过比较增量文档签名和归档文档签名，相比单纯的关键词匹配，在原理上就能够更全面地捕捉到重复文档的各种形式，去重的覆盖度更高，实现了对增量文档的精确去重。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及文档处理领域，具体涉及一种大规模文本增量模糊去重方法、装置、设备及介质。

技术介绍

1、在文档处理领域，随着数据量的急剧增长，文本去重成为一项重要的预处理任务。特别是在处理海量文档集时，如何高效地去除重复文档，保留增量文档，是业界和学术界共同关注的问题。

2、当前，针对海量已经去重的文档集a和增量未去重的文档集b的去重问题，业界主要采用的是基于索引的模糊去重方法。在该方法中，首先对文档a和b进行预处理，包括分词、去除停用词、大小写转换等操作，以提高后续匹配的准确性。接着，为文档集a构建倒排索引，将文档集a中每个文档表示为一组关键词或短语的集合，并将这些关键词或短语映射到包含它们的文档id列表。在对文档集b进行去重处理时，对于文档集b中的每篇文档，提取其关键词或短语，并在文档集a的倒排索引中查找匹配的文档。例如，通过计算文档之间的相似度，如jaccard相似度、余弦相似度或编辑距离等，来确定文档集b中的文档与文档集a中的文档的相似度。若文档集b中的文档与文档集a中的任意文档的相似度超过预设的阈值，则认为该文档在文档集...

【技术保护点】

1.一种大规模文本增量模糊去重方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述基于预先保存的所述归档文档集对应的全局字典以及预设哈希函数，确定所述多篇第一文档分别对应的增量文档签名之后，所述针对各所述增量文档签名，在各所述归档文档签名中，确定与该增量文档签名匹配的归档文档签名；若确定存在与该增量文档签名匹配的任一归档文档签名，则将所述增量文档签名对应的第一文档删除；若确定不存在与该增量文档签名匹配的归档文档签名，则保留所述增量文档签名对应的第一文档之前，所述方法还包括：

3.如权利要求2所述的方法，其特征在于，所述基于所述多篇第一文档...

【技术特征摘要】

1.一种大规模文本增量模糊去重方法，其特征在于，所述方法包括：

3.如权利要求2所述的方法，其特征在于，所述基于所述多篇第一文档分别对应的增量文档签名，对所述多篇第一文档进行去重处理，包括：

4.如权利要求1所述的方法，其特征在于，所述针对各所述增量文档签名，在各所述...

【专利技术属性】
技术研发人员：梁家盟，任禾，李鹏，梁家恩，
申请(专利权)人：云知声杭州智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人