数据处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:33734352 阅读:15 留言:0更新日期:2022-06-08 21:30
本发明专利技术提供一种数据处理方法、装置、电子设备及存储介质。数据处理方法包括:首先根据数据维度对多个待处理的数据进行分组,获得各维度的数据集;其次通过聚合函数对各维度的数据集分别进行聚合去重处理,获得各维度数据集对应的位图数组;然后获取各维度数据集对应的位图数组的基数值;最后根据位图数组的基数值确定各维度数据集去重后的数据量。本发明专利技术在上述方法步骤中,将待处理的数据转化为位图数组(Bitmap),通过位图数组存储空间小的特点,可以对不同维度下的数据实现快速去重处理操作,提升了数据统计查询的效率。提升了数据统计查询的效率。提升了数据统计查询的效率。

【技术实现步骤摘要】
数据处理方法、装置、电子设备及存储介质


[0001]本专利技术涉及数据处理的
,尤其涉及一种数据处理方法、装置、电子设备及存储介质。

技术介绍

[0002]随着信息技术的飞速发展,信息数据的存储量不断增大,对数据管理和分析的需求也遍布于各种应用场景中。在数据管理和分析的过程中,通常需要对数据对象进行去重统计,例如获得uv(独立访客)数量等数据。
[0003]随着数据量的增大,查询统计中的计算量也会越来越大,对CPU、内存、网络IO等计算机资源的要求也越来越高,并且处理速度也会越来越慢。

技术实现思路

[0004]为了解决上述现有技术存在的问题和不足,本专利技术的目的是提供一种数据处理方法、装置、电子设备及存储介质,可以实现数据快速去重处理。
[0005]为实现上述目的,本专利技术首先提供一种数据处理方法,包括:
[0006]根据数据维度对多个待处理的数据进行分组,获得各维度的数据集;
[0007]通过聚合函数对各维度的数据集分别进行聚合去重处理,获得各维度数据集对应的位图数组;
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:根据数据维度对多个待处理的数据进行分组,获得各维度的数据集;通过聚合函数对所述各维度的数据集分别进行聚合去重处理,获得所述各维度数据集对应的位图数组;获取所述各维度数据集对应的位图数组的基数值;根据所述位图数组的基数值确定所述各维度数据集去重后的数据量。2.根据权利要求1所述的数据处理方法,其特征在于,所述获取所述各维度数据集对应的位图数组的基数值的步骤,包括:根据所述位图数组获得压缩位图数组,所述压缩位图数组占用的存储空间小于所述位图数组占用的存储空间;根据所述各维度数据集对应的压缩位图数组,获得对应的位图数组基数值。3.根据权利要求2所述的数据处理方法,其特征在于,每个维度的数据集包括多项数据组;所述根据所述各维度数据集对应的压缩位图数组,获得对应的位图数组基数值的步骤,包括:根据每项数据组的压缩位图数组,获得所述每项数据组的基数值;根据所述每项数据组的基数值,确定所述各维度数据集对应的位图数组基数值。4.根据权利要求1所述的数据处理方法,其特征在于,所述数据维度至少包括第一分组字段及第二分组字段;所述根据数据维度对多个待处理的数据进行分组,获得各维度的数据集的步骤,包括:获取每个待处理数据的分组字段;根据所述待处理数据的分组字段,将所述待处理数据分成多个数据集,所述多个数据集包括第一分组字段对应的第一数据集,及第二分组字段对应的第二数据集。5.根据权利要求4所述的数据处理方法,其特征在于,所述第一分组字段与所述第二分组字段均包含多项数据组;所述根据所述位图数组的基数值确定所述各维度数据集去重后的数据量的步骤,包括:根据所述第一分组字段中...

【专利技术属性】
技术研发人员:桑文锋刘耀洲曹犟付力力张广强
申请(专利权)人:神策网络科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1