重复数据的确定方法、装置以及设备制造方法及图纸

技术编号:43480803 阅读:21 留言:0更新日期:2024-11-29 16:54
本申请实施例提供一种重复数据的确定方法、装置以及设备,涉及大数据领域。该方法包括:基于合并计算节点,获取M个计算节点的位图数组和单机重复集;对M个计算节点的位图数组进行两两位运算处理,得到M个重复值;获取计算节点对应的局部反向字典;并根据各局部反向字典,对重复值进行二次查重处理,得到重复值对应的多机重复集;对各多机重复集和各单机重复集进行合并处理,得到全局重复集。本申请的方法,提高了数据寻重效率。

【技术实现步骤摘要】

本申请涉及大数据领域,尤其涉及一种重复数据的确定方法、装置以及设备


技术介绍

1、在金融系统中存在着大量的重复数据,为了减少重复数据对存储和计算资源的浪费,需要确定出重复数据。

2、现有技术中,通过人工逐行检查数据,标记出重复数据,并进行删除处理。

3、但是上述方式中,针对数据量较大的数据集,采用人工处理的方式,耗时费力,进而降低了重复数据的确定效率。


技术实现思路

1、本申请实施例提供一种重复数据的确定方法、装置以及设备,用以解决采用人工处理的方式导致重复数据确定效率降低的技术问题。

2、第一方面,本申请实施例提供一种重复数据的确定方法,包括:

3、基于合并计算节点,获取m个计算节点的位图数组和单机重复集;其中,所述位图数组表征计算节点中各个表征业务数据的字符串的映射处理记录;所述单机重复集中包括重复的字符串;m为大于或等于1的整数;

4、对所述m个计算节点的位图数组进行两两位运算处理,得到m个重复值;其中,所述重复值表征每两个计算节点中重复的映本文档来自技高网...

【技术保护点】

1.一种重复数据的确定方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,基于合并计算节点,获取M个计算节点的位图数组和单机重复集,包括:

3.根据权利要求2所述的方法,其特征在于,基于所述计算节点,对所接收的第一数据集中的各个字符串进行查重处理,得到所述计算节点对应的单机重复集以及位图数组,包括:

4.根据权利要求3所述的方法,其特征在于,基于所述计算节点,对所述第一数据集中的每一字符串进行映射处理,得到所述计算节点对应的映射集合、局部反向字典以及位图数组,包括:

5.根据权利要求4所述的方法,其特征在于,对所述第一数据集...

【技术特征摘要】

1.一种重复数据的确定方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,基于合并计算节点,获取m个计算节点的位图数组和单机重复集,包括:

3.根据权利要求2所述的方法,其特征在于,基于所述计算节点,对所接收的第一数据集中的各个字符串进行查重处理,得到所述计算节点对应的单机重复集以及位图数组,包括:

4.根据权利要求3所述的方法,其特征在于,基于所述计算节点,对所述第一数据集中的每一字符串进行映射处理,得到所述计算节点对应的映射集合、局部反向字典以及位图数组,包括:

5.根据权利要求4所述的方法,其特征在于,对所述第一数据集中的每一字符串进行计算处理,得到所述第一数据集对应的整数集合,包括:

6.根据权利要求3所述的方法,其特征在于,对所述计算节点对应的局部反向字典和位图数组进行反查处理,得到所述计算节点对应的单机重复集,包括:

7.根据权利要求2所述的方法,其特征在于,所述目标数据源存储于单个服务器中;确定目标数据源,包括:

8.根据权利要求7所述的方法,其特征在于,所述数据源配置文件中包括服务器信息和数据库信息;所述服务器信息表征数据源的服务器配置情况;所述数据库信息中包括数据源所在数据库的连接字符串和实例状态。

9.根据权利要求2所述的方法,其特征在于,所述目标数据源包括多个业务数据;将所述目标数据源中多个第一数据集分发至所述m个计算节点上,包括:

10....

【专利技术属性】
技术研发人员:黄巍马永松李代立
申请(专利权)人:中国银联股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1