文档去重方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:37678783 阅读:16 留言:0更新日期:2023-05-26 04:45
本申请提供一种文档去重方法、装置、电子设备及可读存储介质,所述方法包括:获取待去重的文档对;所述文档对由第一文档,以及与所述第一文档的文档相似度超过预设第一阈值的第二文档组成;从所述第一文档与所述第二文档中,分别提取针对所述第一文档的使用场景预先配置的关键语义信息;在从所述第一文档中提取出的关键语义信息与从所述第二文档中提取出的关键语义信息不一致的情形下,确定不需要针对所述文档对进行文档去重。对于文档相似度较高的文档对,通过关键信息进一步确定文档对中的文档是否重复,提高了针对重复文档进行识别的准确性。的准确性。的准确性。

【技术实现步骤摘要】
文档去重方法、装置、电子设备及可读存储介质


[0001]本申请涉及大数据
,尤其涉及一种文档去重方法、装置、电子设备及可读存储介质。

技术介绍

[0002]随着计算机技术以及数据库技术的发展,各企业往往会建立文档库、知识库等以存储文档类数据。在建立文档库、知识库的过程中,在录入文档的环节,往往会采集大量的文档。由于采集文档的来源通常有多个,因此难免会录入重复的文档,需要对文档去重。
[0003]在文档去重的过程中,完全相同的文档可以很容易进行识别,并进行去重;但存在少量差异的文档,在去重过程中,往往容易误识别成重复文档,造成去重错误。

技术实现思路

[0004]本申请提供一种文档去重方法,所述方法包括:
[0005]获取待去重的文档对;所述文档对由第一文档,以及与所述第一文档的文档相似度超过预设第一阈值的第二文档组成;
[0006]从所述第一文档与所述第二文档中,分别提取针对所述第一文档的使用场景预先配置的关键语义信息;
[0007]在从所述第一文档中提取出的关键语义信息与从所述第二文档中提本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文档去重方法,其特征在于,所述方法包括:获取待去重的文档对;所述文档对由第一文档,以及与所述第一文档的文档相似度超过预设第一阈值的第二文档组成;从所述第一文档与所述第二文档中,分别提取针对所述第一文档的使用场景预先配置的关键语义信息;在从所述第一文档中提取出的关键语义信息与从所述第二文档中提取出的关键语义信息不一致的情形下,确定不需要针对所述文档对进行文档去重。2.根据权利要求1所述的方法,其特征在于,所述获取待去重的文档对,包括:生成第一文档对应的第一特征向量;在向量索引库中查找是否存在与所述第一特征向量之间的向量相似度高于第二阈值的特征向量;所述向量索引库包括与至少一个文档分别对应的特征向量;如果存在,则将查找到的特征向量确定为第二特征向量,并将与所述第二特征向量对应的文档确定为所述第二文档,得到由所述第一文档和所述第二文档组成的文档对。3.根据权利要求1所述的方法,其特征在于,从所述第一文档与所述第二文档中,分别提取针对所述第一文档的使用场景预先配置的关键语义信息之前,所述方法还包括:将所述第一文档与所述第二文档输入预设的神经网络进行特征提取,以得到所述第一文档与所述第二文档对应的多维度特征;基于所述多维度特征确定所述第一文档与所述第二文档是否重复,如果是,进一步从所述第一文档与所述第二文档中,分别提取针对所述第一文档的使用场景预先配置的关键语义信息。4.根据权利要求1所述的方法,其特征在于,所述关键语义信息包括基于预训练的实体识别模型识别出的至少一个实体;从所述第一文档与所述第二文档中,分别提取针对所述第一文档的使用场景预先配置的关键语义信息,包括:将所述第一文档与所述第二文档当分别输入预训练的实体识别模型进行计算,得到所述实体识别模型输出的所述第一文档包含的实体和所述第二文档包含的实体。5.根据权利要求2所述的方法,...

【专利技术属性】
技术研发人员:周轶凡
申请(专利权)人:杭州数梦工场科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1