重复数据检测方法及装置制造方法及图纸

技术编号:28215979 阅读:29 留言:0更新日期:2021-04-28 09:27
本申请公开了一种重复数据检测方法及装置,涉及计算机技术领域。在所述方法中,通过在判定待检测的目标数据为非重复数据时,将该目标数据记录到布隆过滤器,并将该目标数据对应的特征信息记录到持久化存储单元,不仅可以在后续过程中通过该布隆过滤器检测出与该目标数据相同的重复数据,同时还可以在该目标数据过期时基于该持久化存储单元中记录的特征信息将其从布隆过滤器中删除,从而实现支持过期时间的海量数据重复检测,提高设备在有过期时间要求的应用场景下进行重复数据检测的准确性。性。性。

【技术实现步骤摘要】
重复数据检测方法及装置


[0001]本申请涉及计算机
,具体而言,涉及重复数据检测方法及装置。

技术介绍

[0002]现有技术中,往往会采用布隆过滤器来满足海量数据快速判定重复的应用场景,例如:通过布隆过滤器实现网络爬虫对Url(Uniform Resource Locators,统一资源定位符)去重、反垃圾邮件等需求。
[0003]标准的布隆过滤器能够以极高的时间效率检索一个元素是否存在于一个集合中,同时兼具极高的空间使用率。但是,对于标准布隆过滤器而言,数据一经记录就无法删除,如果网络爬虫采用标准布隆过滤器判断重复Url,即意味着同一个网页无法被重复爬取,这将导致无法发现页面内容的更新,进而影响检测结果的准确性。
[0004]因此,对于本领域技术人员而言,研究一种更加合理的重复数据检测方法或装置具有重要意义。

技术实现思路

[0005]本申请实施例通过提供一种重复数据检测方法及装置,以解决现有技术中的上述问题。
[0006]为了实现上述目的,本申请较佳实施例采用的技术方案如下
[000本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种重复数据检测方法,其特征在于,应用于电子设备,所述电子设备配置有布隆过滤器及持久化存储单元,所述布隆过滤器至少用于存储数据,所述持久化存储单元至少用于存储所述数据对应的特征信息,所述方法包括:获取待检测的目标数据;查询所述布隆过滤器中是否包含所述目标数据;若所述布隆过滤器中包含所述目标数据,判定所述目标数据为重复数据;若所述布隆过滤器中不包含所述目标数据,则将所述目标数据记录到所述布隆过滤器,并将所述目标数据对应的特征信息记录到所述持久化存储单元。2.如权利要求1所述的方法,其特征在于,所述布隆过滤器中还存储有数据的特征值,所述查询所述布隆过滤器中是否包含所述目标数据的步骤,包括:通过散列算法对所述目标数据进行散列处理,得到所述目标数据对应的特征值;判断所述目标数据对应的特征值是否已全部被所述布隆过滤器记录;若所述特征值未全部被所述布隆过滤器记录,则判定所述布隆过滤器中不包含所述目标数据。3.如权利要求2所述的方法,其特征在于,所述将所述目标数据对应的特征信息记录到所述持久化存储单元的步骤,包括:获取所述目标数据对应的特征信息,所述特征信息包括所述目标数据对应的过期时间及特征值;将所述目标数据对应的过期时间及特征值记录到所述持久化存储单元,其中,所述特征值的存储方式包括按Avro格式进行记录,并根据所述特征值对应的过期时间分区存储。4.如权利要求3所述的方法,其特征在于,所述根据所述特征值对应的过期时间分区存储的步骤,包括:将过期时间相同的目标数据所对应的特征值存储到所述持久化存储单元中的同一分区。5.如权利要求4所述的方法,其特征在于,所述方法还包括:基于所述过期时间在所述持久化存储单元的相应分区中查找对应的目标文件;根据所述目标文件中存储的特征值对所述布隆过滤器中记录的,与所述特征值对应的数...

【专利技术属性】
技术研发人员:赵一飞
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1