一种数据查重的方法及装置制造方法及图纸

技术编号:32279441 阅读:32 留言:0更新日期:2022-02-12 19:46
本申请提供一种数据查重的方法及装置,应用于数据处理技术领域,用以解决数据查重时,占用空间、查重效率以及查重准确性不能兼得的问题。该方法具体包括:获取待存储至分布式缓存系统的第一分片的第一目录信息,第一目录信息用于标识待存储至数据库的第一数据,第一目录信息包括至少一个目录项;根据第一目录信息生成第一压缩位图,第一压缩位图中的位图位与第一目录信息中的目录项一一对应;根据第一压缩位图与第二压缩位图,确定第一目录信息中与第一分片中已存的目录信息中相重复的目录项;其中,第二压缩位图中的位图位与第一分片中已存的目录信息中的目录项一一对应;根据重复的目录项确定第一数据与数据库中已存数据相重复的数据。复的数据。复的数据。

【技术实现步骤摘要】
一种数据查重的方法及装置


[0001]本申请涉及数据处理
,具体涉及了一种数据查重的方法及装置。

技术介绍

[0002]在对数据库进行数据维护时,可能会因为一些现实原因,导致数据库中出现同一数据重复录入的情况,例如,录入时人为操作出现失误,或是因信息不对等导致数据重复录入等。这种重复数据会对系统的正常运行产生不利影响,包括但不限于:系统异常、统计错误、数据展示错误等等。为避免这些不利影响,通常,在数据录入数据库前,会采用对将要进行录入的数据针对数据库中数据进行查重的操作,以此避免数据库中出现重复数据而导致上述各种不利影响。
[0003]但是,目前常用的查重手段,存在着占用空间、查重效率以及查重准确性不能兼得这一问题。

技术实现思路

[0004]本申请实施例提供一种数据查重的方法及装置,用以解决数据查重时,占用空间、查重效率以及查重准确性不能兼得的问题。
[0005]第一方面,提供一种数据查重的方法,包括:获取待存储至分布式缓存系统的第一分片的第一目录信息,所述第一目录信息用于标识待存储至数据库的第一数据,所本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据查重的方法,其特征在于,包括:获取待存储至分布式缓存系统的第一分片的第一目录信息,所述第一目录信息用于标识待存储至数据库的第一数据,所述第一目录信息包括至少一个目录项,所述至少一个目录项中每个目录项的数据量长度为M,M为正整数;所述分布式缓存系统用于存储所述数据库中保存的数据对应的目录信息;根据所述第一目录信息生成第一压缩位图,所述第一压缩位图中的位图位与所述第一目录信息中的目录项一一对应;根据所述第一压缩位图与第二压缩位图,确定所述第一目录信息中与所述第一分片中已存的目录信息中相重复的目录项;其中,所述第二压缩位图中的位图位与所述第一分片中已存的目录信息中的目录项一一对应;根据所述重复的目录项确定所述第一数据与所述数据库中已存数据相重复的数据。2.如权利要求1所述的方法,其特征在于,所述第一分片的分片编号与所述第一目录信息中所有目录项的前S位相对应。3.如权利要求1所述的方法,其特征在于,所述每个目录项的数据量长度为64位。4.如权利要求1所述的方法,其特征在于,所述第一目录信息包括一个目录项;根据所述第一目录信息生成第一压缩位图,包括:根据所述一个目录项的前N位数据创建目标容器,将所述一个目录项的后M

N位存储至所述目标容器中,并使用所述一个目录项的前N位数据标识所述目标容器;或者,所述第一目录信息包括多个目录项;根据所述第一目录信息生成第一压缩位图,包括:根据第一目录项的前N位创建所述目标容器,将前N位与所述第一目录项的前N位相同的其它目录项的后M

N位存储至所述目标容器,其中所述第一目录项为所述多个目录项中的任一个。5.如权利要求4所述的方法,其特征在于,所述方法还包括:根据所述目录项的前N位数据建立索引,其中,所述索引采用自适应基数树ART数据结构,所述索引用于指示所述至少一个目录项与所述压缩位图中容器的对应关系;根据第二目录项的前N位以及所述索引,查找所述第二目录项所对应的所述目标容器;其中,所述第二目录项为所述至少一个目录项中的任一个;将所述第二目录项的后M

N位存储至所述目标容器。6.如权利要求1所述的方法,其特征在于,所述方法还包括:接收新增指示,所述新增指示用于指示所述第一数据中与所述数据库中已存数据不重复的数据已存储至所述数据库中;响应于所述新增指示,根据所述第一目录信息、所述重复的目录项更新所述第二压缩位图。7.如权利要求6所述的方法,其特征在于,所述方法还包括:接收删除指示,所述删除指示用于指示第二数据已从数据库中删除,所述删除指示包括所述第二数据对应的第二目录信息,其中所述第二目录信息保存在所述第一分片上;响应于所述删除指示,根据所述第二目录信息更新所述第二压缩位图。8.一种数据查重的装置,其特征在于,包括:获取模块,用于获取待存储至分布式缓存系统的第一分片的第一目录信息,所述第一
目录信息用于标识待存储至数据库的第一数据,所述第一目录信息包括至少一个目录项,所述至少一个目录项中每个目录项的数据量长度为M,M为正整数;所述分布式缓存系统用于存储所述数据库中保存的数据对应的目录信息;处理模块,用于根据所述第一目录信息生成第一压缩位图,...

【专利技术属性】
技术研发人员:郑万霖龙珏男张小刚李勇君
申请(专利权)人:中国建设银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1