【技术实现步骤摘要】
本申请涉及文档处理领域,具体涉及一种大规模文本增量模糊去重方法、装置、设备及介质。
技术介绍
1、在文档处理领域,随着数据量的急剧增长,文本去重成为一项重要的预处理任务。特别是在处理海量文档集时,如何高效地去除重复文档,保留增量文档,是业界和学术界共同关注的问题。
2、当前,针对海量已经去重的文档集a和增量未去重的文档集b的去重问题,业界主要采用的是基于索引的模糊去重方法。在该方法中,首先对文档a和b进行预处理,包括分词、去除停用词、大小写转换等操作,以提高后续匹配的准确性。接着,为文档集a构建倒排索引,将文档集a中每个文档表示为一组关键词或短语的集合,并将这些关键词或短语映射到包含它们的文档id列表。在对文档集b进行去重处理时,对于文档集b中的每篇文档,提取其关键词或短语,并在文档集a的倒排索引中查找匹配的文档。例如,通过计算文档之间的相似度,如jaccard相似度、余弦相似度或编辑距离等,来确定文档集b中的文档与文档集a中的文档的相似度。若文档集b中的文档与文档集a中的任意文档的相似度超过预设的阈值,则认为该文档在文档集
...【技术保护点】
1.一种大规模文本增量模糊去重方法,其特征在于,所述方法包括:
2.如权利要求1所述的方法,其特征在于,所述基于预先保存的所述归档文档集对应的全局字典以及预设哈希函数,确定所述多篇第一文档分别对应的增量文档签名之后,所述针对各所述增量文档签名,在各所述归档文档签名中,确定与该增量文档签名匹配的归档文档签名;若确定存在与该增量文档签名匹配的任一归档文档签名,则将所述增量文档签名对应的第一文档删除;若确定不存在与该增量文档签名匹配的归档文档签名,则保留所述增量文档签名对应的第一文档之前,所述方法还包括:
3.如权利要求2所述的方法,其特征在于,所述
...【技术特征摘要】
1.一种大规模文本增量模糊去重方法,其特征在于,所述方法包括:
2.如权利要求1所述的方法,其特征在于,所述基于预先保存的所述归档文档集对应的全局字典以及预设哈希函数,确定所述多篇第一文档分别对应的增量文档签名之后,所述针对各所述增量文档签名,在各所述归档文档签名中,确定与该增量文档签名匹配的归档文档签名;若确定存在与该增量文档签名匹配的任一归档文档签名,则将所述增量文档签名对应的第一文档删除;若确定不存在与该增量文档签名匹配的归档文档签名,则保留所述增量文档签名对应的第一文档之前,所述方法还包括:
3.如权利要求2所述的方法,其特征在于,所述基于所述多篇第一文档分别对应的增量文档签名,对所述多篇第一文档进行去重处理,包括:
4.如权利要求1所述的方法,其特征在于,所述针对各所述增量文档签名,在各所述...
【专利技术属性】
技术研发人员:梁家盟,任禾,李鹏,梁家恩,
申请(专利权)人:云知声杭州智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。