【技术实现步骤摘要】
用于联机分析处理的数据处理方法和装置
本专利技术涉及数据处理领域,具体而言,涉及一种用于联机分析处理的数据处理方法和装置。
技术介绍
去重指标指“访问者”这样的用户数指标,是不可累加的指标,在计算时,需要对所有需要的数据都加载到内存,再进行去重,最后得到用户数指标。不可累加指标是指标数据不能叠加,假设联机分析处理里按时间进行分区,例如每个月份分一个区,若9月份的分区中记录的用户数为100,10月份的分区中记录的用户数为200,那么近两月(9月和10月)的访问用户数在去重之后有可能是200至300之间的任意一个值,对于这种去重指标为不可累加指标,其值不能由各分区得出的值直接相加获得,需要将所有值加载到内存之后,再进行去重才能获得。去重指标是不可累加的指标,按照传统的分区方式,在各个分区内计算的用户数等去重指标,不能直接累加,需要所有分区一起参与计算,因此内存开销较大。针对现有技术中在进行联机分析处理时内存开销比较大的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术的主要目的在于提供一种用于联机分析处理的数据处理方法和装置,以解决相关技术中在进行联 ...
【技术保护点】
一种用于联机分析处理的数据处理方法,其特征在于,包括:获取对联机分析处理中的数据进行分区得到的多个分区;分别计算所述多个分区的去重计数指标的用户数;以及将计算得到的所述多个分区的去重计数指标的用户数相加,得到所述联机分析处理中的去重计数的用户数。
【技术特征摘要】
1.一种用于联机分析处理的数据处理方法,其特征在于,包括: 获取对联机分析处理中的数据进行分区得到的多个分区; 分别计算所述多个分区的去重计数指标的用户数;以及 将计算得到的所述多个分区的去重计数指标的用户数相加,得到所述联机分析处理中的去重计数的用户数。2.根据权利要求1所述的数据处理方法,其特征在于,在获取对联机分析处理中的数据进行分区得到的多个分区之前,所述数据处理方法还包括: 对所述联机分析处理中的数据进行分区处理,得到对应于多个时间段的多个第一分区; 将每个所述第一分区均划分为多个子分区;以及 将所述多个子分区作为对所述联机分析处理中的数据进行分区得到的多个分区。3.根据权利要求2所述的数据处理方法,其特征在于,所述多个子分区中的每个子分区包括同一哈希组的用户数据,在获取对联机分析处理中的数据进行分区得到的多个分区之后,所述数据处理方法还包括: 判断是否有新增加用户; 如果判断出有新增加的用户,则获取预先设置的哈希组;以及 将所述新增加用户的用户数据分配到所述预先设置的哈希组中。4.根据权利要求1所述的数据处理方法,其特征在于,将计算得到的所述多个分区的去重计数指标的用户数相加,得到所述联机分析处理中的去重计数的用户数包括: 查找所述去重计数指标的相关列; 由所述去重计数指标的相关列创建用户哈希映射列,其中,所述去重计数指标的相关列和所述用户哈希映射列为一一对应关系;以及 通过采用所述用户哈希映射列替换所述去重计数指标的相关列进行去重计数计算。5.根据权利要求4所述的数据处理方法,其特征在于,通过采用所述用户哈希映射列替换所述去重计数指标的相关列进行去重计数计算包括: 获取所述联机分析处理中的去重计数指标;以及 通过直接更改所述联机分析处理中的去重计数指标进行所述去重计数计算。6.一种用于联机分析处理的数据...
【专利技术属性】
技术研发人员:洪超,
申请(专利权)人:北京国双科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。