一种基于MPP架构数据库的数据去重方法及装置制造方法及图纸

技术编号:33637573 阅读:17 留言:0更新日期:2022-06-02 01:52
本发明专利技术公开了一种基于MPP架构数据库的数据去重方法,该方法在根据统计参数确定原始数据中待去重的目标数据后,将多指标去重操作转化为多个单一指标去重操作,对目标数据的各去重指标进行逐一去重处理,再按照去重维度聚合各去重子项,本方法中的单一指标逐一去重相比传统的多指标同时去重工作量显著缩减,能有效的解决直接count distinct时计算效率低下、甚至无法运行的问题,同时资源占用也较小,且随着去重指标个数的增加,该方法对于效率的提升效果更为显著,可以实现多指标的快速去重。本发明专利技术还公开了一种基于MPP架构数据库的数据去重装置、设备及可读存储介质,具有相应的技术效果。效果。效果。

【技术实现步骤摘要】
一种基于MPP架构数据库的数据去重方法及装置


[0001]本专利技术涉及数据处理
,特别是涉及一种基于MPP架构数据库的数据去重方法、装置、设备及可读存储介质。

技术介绍

[0002]去重是日常统计分析中一个十分重要的工具,例如统计一天的交易用户数、一个月的交易用户数、PV(Page View,访问量)、UV(Unique Visitor,独立访客)等。不同于常见的对于笔数和金额等直接累计的统计方法,去重的核心思路是将用户在规定时间范围内的多次操作按一次进行统计。
[0003]现有技术中通常采用基于SQL的count distinct(SQL中一个去重函数)直接处理的去重方法,该方法能在一定程度上满足数据去重的需求,但是只适合数据量小的场景,一旦数据量达到千万级、亿级及以上时,查询效率会直线下降,甚至无法运行。
[0004]综上所述,如何在存在多个去重指标时保证去重运行效率,是目前本领域技术人员急需解决的技术问题。

技术实现思路

[0005]本专利技术的目的是提供一种基于MPP架构数据库的数据去重方法、装置、设备及可读存储介质,以解决多指标下的去重效率问题。
[0006]为解决上述技术问题,本专利技术提供如下技术方案:
[0007]一种基于MPP架构数据库的数据去重方法,包括:
[0008]接收待去重的原始数据,并确定统计参数;其中,所述统计参数包括:统计维度以及去重指标;
[0009]确定所述原始数据中在所述统计维度下所述去重指标对应的数据,作为目标数据;
[0010]对所述目标数据的各所述去重指标进行逐一去重处理,得到若干去重子项;
[0011]聚合各所述去重子项,作为去重数据。
[0012]可选地,所述统计参数中还包括:非去重指标;
[0013]则相应地,还包括:
[0014]统计所述原始数据中在所述统计维度下所述非去重指标对应的数据,作为非去重数据;
[0015]合并所述非去重数据以及所述去重数据,作为统计结果。
[0016]可选地,所述统计所述原始数据中在所述统计维度下所述非去重指标对应的数据,作为非去重数据,包括:
[0017]调用聚合函数对所述原始数据中在所述统计维度下所述非去重指标的数据进行聚合计算,并将所述聚合计算的结果作为所述非去重数据。
[0018]可选地,所述聚合各所述去重子项,包括:按照所述统计维度聚合各所述去重子
项。
[0019]一种基于MPP架构数据库的数据去重装置,包括:
[0020]数据接收单元,用于接收待去重的原始数据,并确定统计参数;其中,所述统计参数包括:统计维度以及去重指标;
[0021]目标确定单元,用于确定所述原始数据中在所述统计维度下所述去重指标对应的数据,作为目标数据;
[0022]单一去重单元,用于对所述目标数据的各所述去重指标进行逐一去重处理,得到若干去重子项;
[0023]数据聚合单元,用于聚合各所述去重子项,作为去重数据。
[0024]可选地,数据接收单元中确定所述统计参数中还包括:非去重指标;
[0025]则相应地,所述数据去重装置中还包括:
[0026]非去重统计单元,用于统计所述原始数据中在所述统计维度下所述非去重指标对应的数据,作为非去重数据;
[0027]数据合并单元,用于合并所述非去重数据以及所述去重数据,作为统计结果。
[0028]可选地,所述非去重统计单元具体为:聚合统计单元;
[0029]所述聚合统计单元,用于调用聚合函数对所述原始数据中在所述统计维度下所述非去重指标的数据进行聚合计算,并将所述聚合计算的结果作为所述非去重数据。
[0030]可选地,所述数据聚合单元具体为:维度聚合单元;所述维度聚合单元用于按照所述统计维度聚合各所述去重子项。
[0031]一种计算机设备,包括:
[0032]存储器,用于存储计算机程序;
[0033]处理器,用于执行所述计算机程序时实现上述基于MPP架构数据库的数据去重方法的步骤。
[0034]一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述基于MPP架构数据库的数据去重方法的步骤。
[0035]本专利技术实施例所提供的方法提出了一个基于MPP架构数据的可以通用化的实现数据去重的方法,该方法在根据统计参数确定原始数据中待去重的目标数据后,将多指标去重操作转化为多个单一指标去重操作,对目标数据的各去重指标进行逐一去重处理,再按照去重维度聚合各去重子项,本方法中的单一指标逐一去重相比传统的多指标同时去重工作量显著缩减,能有效的解决直接count distinct时计算效率低下、甚至无法运行的问题,同时资源占用也较小,且随着去重指标个数的增加,该方法对于效率的提升效果更为显著,可以实现多指标的快速去重。
[0036]相应地,本专利技术实施例还提供了与上述基于MPP架构数据库的数据去重方法相对应的基于MPP架构数据库的数据去重装置、设备和可读存储介质,具有上述技术效果,在此不再赘述。
附图说明
[0037]为了更清楚地说明本专利技术实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本
专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0038]图1为本专利技术实施例中一种基于MPP架构数据库的数据去重方法的实施流程图;
[0039]图2为本专利技术实施例中一种根据去重指标进行去重的实现示意图;
[0040]图3为本专利技术实施例中一种根据去重指标和非去重指标进行去重的实现示意图;
[0041]图4为本专利技术实施例中一种基于MPP架构数据库的数据去重装置的结构示意图;
[0042]图5为本专利技术实施例中一种计算机设备的结构示意图。
具体实施方式
[0043]本专利技术的核心是提供一种基于MPP架构数据库的数据去重方法,可以解决多指标下的去重效率问题。
[0044]为了使本
的人员更好地理解本专利技术方案,下面结合附图和具体实施方式对本专利技术作进一步的详细说明。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0045]现有技术中通常采用基于SQL的count distinct直接处理的去重方法,即在接收到去重请求后,直接对请求的数据执行count distinct操作。该方法能在一定程度上满足数据去重的需求,但是只适合数据量小的场景。以Hive为例,所有的去重在mapper结束后,在reducer阶段都会打到一个节点上,因此在数据量大时该节点将无法承担以及响应;又以GreenPlum为例,在有多个coun本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于MPP架构数据库的数据去重方法,其特征在于,包括:接收待去重的原始数据,并确定统计参数;其中,所述统计参数包括:统计维度以及去重指标;确定所述原始数据中在所述统计维度下所述去重指标对应的数据,作为目标数据;对所述目标数据的各所述去重指标进行逐一去重处理,得到若干去重子项;聚合各所述去重子项,作为去重数据。2.根据权利要求1所述的基于MPP架构数据库的数据去重方法,其特征在于,所述统计参数中还包括:非去重指标;则相应地,还包括:统计所述原始数据中在所述统计维度下所述非去重指标对应的数据,作为非去重数据;合并所述非去重数据以及所述去重数据,作为统计结果。3.根据权利要求2所述的基于MPP架构数据库的数据去重方法,其特征在于,所述统计所述原始数据中在所述统计维度下所述非去重指标对应的数据,作为非去重数据,包括:调用聚合函数对所述原始数据中在所述统计维度下所述非去重指标的数据进行聚合计算,并将所述聚合计算的结果作为所述非去重数据。4.根据权利要求1所述的基于MPP架构数据库的数据去重方法,其特征在于,所述聚合各所述去重子项,包括:按照所述统计维度聚合各所述去重子项。5.一种基于MPP架构数据库的数据去重装置,其特征在于,包括:数据接收单元,用于接收待去重的原始数据,并确定统计参数;其中,所述统计参数包括:统计维度以及去重指标;目标确定单元,用于确定所述原始数据中在所述统计维度下所述去重指标对应的数据,作为目标数据;单一去...

【专利技术属性】
技术研发人员:李恒昌甘剑锋
申请(专利权)人:度小满科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1