数据处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:33734352 阅读:9 留言:0更新日期:2022-06-08 21:30
本发明专利技术提供一种数据处理方法、装置、电子设备及存储介质。数据处理方法包括:首先根据数据维度对多个待处理的数据进行分组,获得各维度的数据集;其次通过聚合函数对各维度的数据集分别进行聚合去重处理,获得各维度数据集对应的位图数组;然后获取各维度数据集对应的位图数组的基数值;最后根据位图数组的基数值确定各维度数据集去重后的数据量。本发明专利技术在上述方法步骤中,将待处理的数据转化为位图数组(Bitmap),通过位图数组存储空间小的特点,可以对不同维度下的数据实现快速去重处理操作,提升了数据统计查询的效率。提升了数据统计查询的效率。提升了数据统计查询的效率。

【技术实现步骤摘要】
数据处理方法、装置、电子设备及存储介质


[0001]本专利技术涉及数据处理的
,尤其涉及一种数据处理方法、装置、电子设备及存储介质。

技术介绍

[0002]随着信息技术的飞速发展,信息数据的存储量不断增大,对数据管理和分析的需求也遍布于各种应用场景中。在数据管理和分析的过程中,通常需要对数据对象进行去重统计,例如获得uv(独立访客)数量等数据。
[0003]随着数据量的增大,查询统计中的计算量也会越来越大,对CPU、内存、网络IO等计算机资源的要求也越来越高,并且处理速度也会越来越慢。

技术实现思路

[0004]为了解决上述现有技术存在的问题和不足,本专利技术的目的是提供一种数据处理方法、装置、电子设备及存储介质,可以实现数据快速去重处理。
[0005]为实现上述目的,本专利技术首先提供一种数据处理方法,包括:
[0006]根据数据维度对多个待处理的数据进行分组,获得各维度的数据集;
[0007]通过聚合函数对各维度的数据集分别进行聚合去重处理,获得各维度数据集对应的位图数组;
[0008]获取各维度数据集对应的位图数组的基数值;
[0009]根据位图数组的基数值确定各维度数据集去重后的数据量。
[0010]可选地,获取各维度数据集对应的位图数组的基数值的步骤,包括:
[0011]根据位图数组获得压缩位图数组,压缩位图数组占用的存储空间小于位图数组占用的存储空间;
[0012]根据压缩位图数组,获得对应的位图数组基数值。r/>[0013]可选地,每个维度的数据集包括多项数据组;根据各维度数据集对应的压缩位图数组,获得对应的位图数组基数值的步骤,包括:
[0014]根据每项数据组的压缩位图数组,获得每项数据组的基数值;
[0015]根据每项数据组的基数值,确定各维度数据集对应的位图数组基数值。
[0016]可选地,数据维度至少包括第一分组字段及第二分组字段;根据数据维度对多个待处理的数据进行分组,获得各维度的数据集的步骤,包括:
[0017]获取每个待处理数据的分组字段;
[0018]根据待处理数据的分组字段,将待处理数据分成多个数据集,多个数据集包括第一分组字段对应的第一数据集,及第二分组字段对应的第二数据集。
[0019]可选地,第一分组字段与第二分组字段均包含多项数据组;根据位图数组的基数值确定各维度数据集去重后的数据量的步骤,包括:
[0020]根据第一分组字段中数据对应的位图数组的基数值,确定第一分组字段中各项数
据组去重后的数据量;
[0021]根据第二分组字段中数据对应的位图数组的基数值,确定第二分组字段中各项数据组去重后的数据量。
[0022]本专利技术同时提供一种数据处理装置,包括:
[0023]数据分组模块,用于根据数据维度对多个待处理的数据进行分组,获得各维度的数据集;
[0024]聚合去重模块,用于通过聚合函数对各维度的数据集分别进行聚合去重处理,获得各维度数据集对应的位图数组;
[0025]基数获取模块,用于获取各维度数据集对应的位图数组的基数值;
[0026]数据确定模块,用于根据位图数组的基数值确定各维度数据集去重后的数据量。
[0027]可选地,基数获取模块包括:
[0028]压缩位图获取模块,用于根据位图数组获得压缩位图数组,压缩位图数组占用的存储空间小于位图数组占用的存储空间;
[0029]位图基数获取模块,用于根据压缩位图数组,获得对应的位图数组基数值。
[0030]可选地,每个维度的数据集包括多项数据组,位图基数获取模块包括:
[0031]基数值获取模块,用于根据每项数据组的压缩位图数组,获得每项数据组的基数值;
[0032]基数值确定模块,用于根据每项数据组的基数值,确定各维度数据集对应的位图数组基数值。
[0033]本专利技术还提供一种电子设备,包括存储介质和处理器,存储介质存储有计算机程序,处理器执行计算机程序时实现上述任一项的数据处理方法的步骤。
[0034]本专利技术还一种计算机可读的存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一项的数据处理方法的步骤。
[0035]与现有技术相比,本专利技术的有益效果包括:首先根据数据维度对多个待处理的数据进行分组,获得各维度的数据集;其次通过聚合函数对各维度的数据集分别进行聚合去重处理,获得各维度数据集对应的位图数组;然后获取各维度数据集对应的位图数组的基数值;最后根据位图数组的基数值确定各维度数据集去重后的数据量。本专利技术在上述方法步骤中,将待处理的数据转化为位图数组(Bitmap),通过位图数组存储空间小的特点,可以对不同维度下的数据实现快速去重处理操作,提升了数据统计查询的效率。
附图说明
[0036]为了更清楚地说明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单介绍,显而易见地,下面描述中的附图仅仅是专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0037]图1是本专利技术实施例数据处理方法的流程图一;
[0038]图2是本专利技术实施例数据处理方法的流程图二;
[0039]图3是本专利技术实施例数据处理方法的流程图三;
[0040]图4是本专利技术实施例数据处理装置的框架图;
[0041]图5是本专利技术实施例基数获取模块的框架图;
[0042]图6是本专利技术实施例位图基数获取模块的框架图;
[0043]图7是本专利技术实施例电子设备的架构图。
具体实施方式
[0044]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。此外,本专利技术实施例中,术语“第一”、“第二”等仅用于区分描述的目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。在本专利技术实施例中,“例如”、“例子”和“比如”用来表示“用作例子、例证或说明”。本专利技术中被描述为“例如”、“例子”和“比如”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本专利技术,给出了以下描述。在以下描述中,为了解释的目的而列出了细节。应当明白的是,本领域普通技术人员可以认识到,在不使用这些特定细节的情况下也可以实现本专利技术。在其它实例中,不会对公知的结构和过程进行详细阐述,以避免不必要的细节使本专利技术的描述变得晦涩。因此,本专利技术并非旨在限于所示的实施例,而是与符合本专利技术所公开的原理和特征的最广范围相一致。
[0045]本专利技术实施例提供一种数据处理方法,如图1所示,包括步骤100、步骤200、步骤300及步骤400,数据处理方法具体如下:
[0046]步骤100,根据数据维度对多个待处理的数据进行分组本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:根据数据维度对多个待处理的数据进行分组,获得各维度的数据集;通过聚合函数对所述各维度的数据集分别进行聚合去重处理,获得所述各维度数据集对应的位图数组;获取所述各维度数据集对应的位图数组的基数值;根据所述位图数组的基数值确定所述各维度数据集去重后的数据量。2.根据权利要求1所述的数据处理方法,其特征在于,所述获取所述各维度数据集对应的位图数组的基数值的步骤,包括:根据所述位图数组获得压缩位图数组,所述压缩位图数组占用的存储空间小于所述位图数组占用的存储空间;根据所述各维度数据集对应的压缩位图数组,获得对应的位图数组基数值。3.根据权利要求2所述的数据处理方法,其特征在于,每个维度的数据集包括多项数据组;所述根据所述各维度数据集对应的压缩位图数组,获得对应的位图数组基数值的步骤,包括:根据每项数据组的压缩位图数组,获得所述每项数据组的基数值;根据所述每项数据组的基数值,确定所述各维度数据集对应的位图数组基数值。4.根据权利要求1所述的数据处理方法,其特征在于,所述数据维度至少包括第一分组字段及第二分组字段;所述根据数据维度对多个待处理的数据进行分组,获得各维度的数据集的步骤,包括:获取每个待处理数据的分组字段;根据所述待处理数据的分组字段,将所述待处理数据分成多个数据集,所述多个数据集包括第一分组字段对应的第一数据集,及第二分组字段对应的第二数据集。5.根据权利要求4所述的数据处理方法,其特征在于,所述第一分组字段与所述第二分组字段均包含多项数据组;所述根据所述位图数组的基数值确定所述各维度数据集去重后的数据量的步骤,包括:根据所述第一分组字段中...

【专利技术属性】
技术研发人员:桑文锋刘耀洲曹犟付力力张广强
申请(专利权)人:神策网络科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1