【技术实现步骤摘要】
一种数据去重的方法和系统
本专利技术涉及大数据领域,具体涉及一种数据去重的方法和系统。
技术介绍
目前,大数据在很多领域都被广泛的应用,大数据的应用不仅在于掌握庞大的数据信息,而且包括对这些含有意义的数据进行专业化处理。在对大量的数据进行收集的过程中,许多的数据都需要进一步的筛选,从而得到客户最需要的那部分数据,例如,在对大数据的处理过程中,将收集到的数据去重,既筛选去掉重复的数据,这种筛选是许多应用大数据的客户都要进行的操作。然而,对于在数据量如此大的现实环境中,数据去重带来的计算资源损耗非常的巨大,如何高效精确的将重复的数据去掉,目前而言存在一定的难度。现有技术在处理数据去重的过程中通常有两种操作,一种是行业内在数据的组件层做了相关的算法,如利用在Druid数据库中采用非精确去重的HyperLogLog算法,或者通过Spark技术进行去重等,但是去重结果不精确,而且消耗的计算资源巨大;另一种是利用数据词典进行数据去重,例如在PostGreSql、ClickHouse以及Druid数据管理系统中都是在各自的组件层创 ...
【技术保护点】
1.一种数据去重的方法,其特征在于,所述方法包括以下步骤:/n在数据库中设计去重字典表数组,在所述去重字典表数组中增加一列数据加速层,将所述去重字典表数组和所述数据加速层进行维度关联匹配;/n将待去重数据映射到所述去重字典表数组中,再将所述去重字典表数组导入到所述数据加速层的数据管理系统,通过所述数据管理系统将所述去重字典表数组中的所述待去重数据转化为bit格式并存储于Bitmap集合中,使得所述待去重数据转化为所述数据加速层中新的一列;/n在所述Bitmap集合中,利用去重函数,统一对所述待去重数据进行精确去重,筛选掉重复的数据。/n
【技术特征摘要】
1.一种数据去重的方法,其特征在于,所述方法包括以下步骤:
在数据库中设计去重字典表数组,在所述去重字典表数组中增加一列数据加速层,将所述去重字典表数组和所述数据加速层进行维度关联匹配;
将待去重数据映射到所述去重字典表数组中,再将所述去重字典表数组导入到所述数据加速层的数据管理系统,通过所述数据管理系统将所述去重字典表数组中的所述待去重数据转化为bit格式并存储于Bitmap集合中,使得所述待去重数据转化为所述数据加速层中新的一列;
在所述Bitmap集合中,利用去重函数,统一对所述待去重数据进行精确去重,筛选掉重复的数据。
2.根据权利要求1所述的数据去重的方法,其特征在于,所述维度关联匹配包括统计不同维度下的所述去重字典表数组,所述去重字典表数组至少包括会员字典表数组、订单字典表数组;所述维度至少包括字典ID、会员编码、订单创建日期、订单编码、订单产品品牌。
3.根据权利要求2所述的数据去重的方法,其特征在于,所述待去重数据包括离线数据和实时数据,所述去重字典表数组分为离线去重字典表数组和实时去重字典表数组,所述离线数据直接映射到所述离线去重字典表数组中,所述实时数据通过key-value分布式存储系统先确认新增的所述字典ID,再将所述字典ID及其对应的所述实时数据映射到所述实时去重字典表数组中。
4.根据权利要求1所述的数据去重的方法,其特征在于,所述数据管理系统至少包括PG数据管理系统、CK数据管理系统和Druid数据管理系统。
5.根据权利要求1所述的数据去重的方法,其特征在于,所述去重函数至少包括Bitmap和运算、Bitmap非运算、Bitmap或运算。
6.一种数据去重的系统...
【专利技术属性】
技术研发人员:范东,孙迁,汪金忠,
申请(专利权)人:苏宁云计算有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。