一种基于MPP架构数据库的数据去重方法及装置制造方法及图纸

技术编号:33637573 阅读:39 留言:0更新日期:2022-06-02 01:52
本发明专利技术公开了一种基于MPP架构数据库的数据去重方法,该方法在根据统计参数确定原始数据中待去重的目标数据后,将多指标去重操作转化为多个单一指标去重操作,对目标数据的各去重指标进行逐一去重处理,再按照去重维度聚合各去重子项,本方法中的单一指标逐一去重相比传统的多指标同时去重工作量显著缩减,能有效的解决直接count distinct时计算效率低下、甚至无法运行的问题,同时资源占用也较小,且随着去重指标个数的增加,该方法对于效率的提升效果更为显著,可以实现多指标的快速去重。本发明专利技术还公开了一种基于MPP架构数据库的数据去重装置、设备及可读存储介质,具有相应的技术效果。效果。效果。

【技术实现步骤摘要】
一种基于MPP架构数据库的数据去重方法及装置


[0001]本专利技术涉及数据处理
,特别是涉及一种基于MPP架构数据库的数据去重方法、装置、设备及可读存储介质。

技术介绍

[0002]去重是日常统计分析中一个十分重要的工具,例如统计一天的交易用户数、一个月的交易用户数、PV(Page View,访问量)、UV(Unique Visitor,独立访客)等。不同于常见的对于笔数和金额等直接累计的统计方法,去重的核心思路是将用户在规定时间范围内的多次操作按一次进行统计。
[0003]现有技术中通常采用基于SQL的count distinct(SQL中一个去重函数)直接处理的去重方法,该方法能在一定程度上满足数据去重的需求,但是只适合数据量小的场景,一旦数据量达到千万级、亿级及以上时,查询效率会直线下降,甚至无法运行。
[0004]综上所述,如何在存在多个去重指标时保证去重运行效率,是目前本领域技术人员急需解决的技术问题。

技术实现思路

[0005]本专利技术的目的是提供一种基于MPP架构数据库的数据去重方法、装置本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于MPP架构数据库的数据去重方法,其特征在于,包括:接收待去重的原始数据,并确定统计参数;其中,所述统计参数包括:统计维度以及去重指标;确定所述原始数据中在所述统计维度下所述去重指标对应的数据,作为目标数据;对所述目标数据的各所述去重指标进行逐一去重处理,得到若干去重子项;聚合各所述去重子项,作为去重数据。2.根据权利要求1所述的基于MPP架构数据库的数据去重方法,其特征在于,所述统计参数中还包括:非去重指标;则相应地,还包括:统计所述原始数据中在所述统计维度下所述非去重指标对应的数据,作为非去重数据;合并所述非去重数据以及所述去重数据,作为统计结果。3.根据权利要求2所述的基于MPP架构数据库的数据去重方法,其特征在于,所述统计所述原始数据中在所述统计维度下所述非去重指标对应的数据,作为非去重数据,包括:调用聚合函数对所述原始数据中在所述统计维度下所述非去重指标的数据进行聚合计算,并将所述聚合计算的结果作为所述非去重数据。4.根据权利要求1所述的基于MPP架构数据库的数据去重方法,其特征在于,所述聚合各所述去重子项,包括:按照所述统计维度聚合各所述去重子项。5.一种基于MPP架构数据库的数据去重装置,其特征在于,包括:数据接收单元,用于接收待去重的原始数据,并确定统计参数;其中,所述统计参数包括:统计维度以及去重指标;目标确定单元,用于确定所述原始数据中在所述统计维度下所述去重指标对应的数据,作为目标数据;单一去...

【专利技术属性】
技术研发人员:李恒昌甘剑锋
申请(专利权)人:度小满科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1