用于联机分析处理的数据处理方法和装置制造方法及图纸

技术编号:9718812 阅读:131 留言:0更新日期:2014-02-27 05:35
本发明专利技术公开了一种用于联机分析处理的数据处理方法和装置。该用于联机分析处理的数据处理方法包括:获取对联机分析处理中的数据进行分区得到的多个分区;分别计算多个分区的去重计数指标的用户数;以及将计算得到的多个分区的去重计数指标的用户数相加,得到联机分析处理中的去重计数的用户数。通过本发明专利技术,解决了现有技术中在进行联机分析处理时内存开销比较大的问题,达到了减少联机分析处理时内存开销的效果。

【技术实现步骤摘要】
用于联机分析处理的数据处理方法和装置
本专利技术涉及数据处理领域,具体而言,涉及一种用于联机分析处理的数据处理方法和装置。
技术介绍
去重指标指“访问者”这样的用户数指标,是不可累加的指标,在计算时,需要对所有需要的数据都加载到内存,再进行去重,最后得到用户数指标。不可累加指标是指标数据不能叠加,假设联机分析处理里按时间进行分区,例如每个月份分一个区,若9月份的分区中记录的用户数为100,10月份的分区中记录的用户数为200,那么近两月(9月和10月)的访问用户数在去重之后有可能是200至300之间的任意一个值,对于这种去重指标为不可累加指标,其值不能由各分区得出的值直接相加获得,需要将所有值加载到内存之后,再进行去重才能获得。去重指标是不可累加的指标,按照传统的分区方式,在各个分区内计算的用户数等去重指标,不能直接累加,需要所有分区一起参与计算,因此内存开销较大。针对现有技术中在进行联机分析处理时内存开销比较大的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术的主要目的在于提供一种用于联机分析处理的数据处理方法和装置,以解决相关技术中在进行联机分析处理时内存开销比较大问题。为了实现上述目的,根据本专利技术的一个方面,提供了一种用于联机分析处理的数据处理方法。该数据处理方法包括:获取对联机分析处理中的数据进行分区得到的多个分区;分别计算多个分区的去重计数指标的用户数;以及将计算得到的多个分区的去重计数指标的用户数相加,得到联机分析处理中的去重计数的用户数。进一步地,在获取对联机分析处理中的数据进行分区得到的多个分区之前,数据处理方法包括:对联机分析处理中的数据进行分区处理,得到对应于多个时间段的多个第一分区;将每个第一分区划分为多个子分区;以及将多个子分区作为对联机分析处理中的数据进行分区得到的多个分区。进一步地,多个子分区中的每个子分区包括同一哈希组的用户数据,在获取对联机分析处理中的数据进行分区得到的多个分区之后,数据处理方法包括:判断是否有新增加用户;如果判断出有新增加的用户,则获取预先设置的哈希组;以及将新增加用户的用户数据分配到预先设置的哈希组中。进一步地,将计算得到的多个分区的去重计数指标的用户数相加,得到联机分析处理中的去重计数的用户数包括:查找去重计数指标的相关列;由去重计数指标的相关列创建用户哈希映射列,其中,去重计数指标的相关列和用户哈希映射列为一一对应关系;以及通过采用用户哈希映射列替换去重计数指标的相关列进行去重计数计算。进一步地,通过采用用户哈希映射列替换去重计数指标的相关列进行去重计数计算包括:获取联机分析处理中的去重计数指标;以及通过直接更改联机分析处理中的去重计数指标进行去重计数计算。为了实现上述目的,根据本专利技术的另一方面,提供了一种用于联机分析处理的数据处理装置。该数据处理装置包括:第一获取单元,用于获取对联机分析处理中的数据进行分区得到的多个分区;计算单元,用于分别计算多个分区的去重计数指标的用户数;以及求和单元,用于将计算得到的多个分区的去重计数指标的用户数相加,得到联机分析处理中的去重计数的用户数。进一步地,数据处理装置包括:分区单元,用于在获取对联机分析处理中的数据进行分区得到的多个分区之前,对联机分析处理中的数据进行分区处理,得到对应于多个时间段的多个第一分区;划分单元,用于将每个第一分区划分为多个子分区;以及处理单元,用于将多个子分区作为对联机分析处理中的数据进行分区得到的多个分区。进一步地,多个子分区中的每个子分区包括同一哈希组的用户数据,数据处理装置包括:判断单元,用于在获取对联机分析处理中的数据进行分区得到的多个分区之后,判断是否有新增加用户;第二获取单元,用于在判断出有新增加的用户时,获取预先设置的哈希组;以及分配单元,用于将新增加用户的用户数据分配到预先设置的哈希组中。进一步地,求和单元包括:查找模块,用于查找去重计数指标的相关列;映射模块,用于由去重计数指标的相关列创建用户哈希映射列,其中,去重计数指标的相关列和用户哈希映射列为一一对应关系;以及去重模块,用于通过采用用户哈希映射列替换去重计数指标的相关列进行去重计数计算。进一步地,去重模块包括:获取子模块,用于获取联机分析处理中的去重计数指标;以及去重子模块,用于通过直接更改联机分析处理中的去重计数指标进行去重计数计算。通过本专利技术,采用获取对联机分析处理中的数据进行分区得到的多个分区;分别计算所述多个分区的去重计数指标的用户数;以及将计算得到的所述多个分区的去重计数指标的用户数相加,得到所述联机分析处理中的去重计数的用户数,解决了现有技术中进行联机分析处理时内存开销比较大的问题,进而达到了减少联机分析处理时内存开销的效果。【附图说明】构成本申请的一部分的附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术一实施例的数据处理方法的流程图;图2是根据本专利技术又一实施例的数据处理方法的流程图;图3是根据本专利技术实施例的计算联机分析处理中的去重计数的用户数的流程图;图4是根据本专利技术一实施例的数据处理装置的示意图;图5是根据本专利技术又一实施例的数据处理装置的示意图;以及图6是根据本专利技术实施例的又一实施例的数据处理装置的示意图。【具体实施方式】需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本专利技术。本专利技术实施例提供了一种用于联机分析处理的数据处理方法。图1是根据本专利技术一实施例的数据处理方法的流程图。如图所示,该数据处理方法包括如下步骤:步骤S101,获取对联机分析处理中的数据进行分区得到的多个分区。需要进行联机分析处理的数据通常按照一定的规则存储在某个分区中,例如,按时间存储在不同的时间分区中,例如按照每个月份进行分区,对于一年的数据就可以分为12个区,假设当前月份是11月份,则最近两个月份为9月份和10月份。联机分析处理中的数据可以存储近两个月的数据或者更长时间的数据。为了方便对联机分析处理中的数据进行计算处理,对按照例如月份进行分区之后得到的分区再按照一定规则进行分区处理。例如,按照用户是数量或者CPU的数量对10月份分区内的数据再进行分区处理,得到多个分区。经过再次分区得到的多个分区中的数据可以由不可累加的指标变成可累加的指标。需要说明的是,这里所说的分区规则不用于限制本专利技术的技术方案,应当理解为本专利技术技术方案的优选实施方式。步骤S102,分别计算多个分区的去重计数指标的用户数。 用户数是指访问者的数目,由于一个访问者可能多次访问某个网址,那么每次访问都会计数一次,每个月份同一个访问者多次访问同一个网址,则每个月份该访问者会被多次计数。为了准确计算访问一个网址的实际用户数,则需要对记录的用户数进行去重计笪ο由于通过分区将可以进行累加的一类指标数据存放至一个分区上,每个分区上的数据按照用户唯一标识作为分区条件,则每个分区中存放的用户相同,不同分区中的用户不相同,对多个分区中的用户数分别进行去重计数指标的计算,得到每个分区的去重计数指标的用户数。步骤S103,将计算得到的多个分区的去重计数指标的用户数相加,得到联机分析处理中的去重计数的用户数。本文档来自技高网...
用于联机分析处理的数据处理方法和装置

【技术保护点】
一种用于联机分析处理的数据处理方法,其特征在于,包括:获取对联机分析处理中的数据进行分区得到的多个分区;分别计算所述多个分区的去重计数指标的用户数;以及将计算得到的所述多个分区的去重计数指标的用户数相加,得到所述联机分析处理中的去重计数的用户数。

【技术特征摘要】
1.一种用于联机分析处理的数据处理方法,其特征在于,包括: 获取对联机分析处理中的数据进行分区得到的多个分区; 分别计算所述多个分区的去重计数指标的用户数;以及 将计算得到的所述多个分区的去重计数指标的用户数相加,得到所述联机分析处理中的去重计数的用户数。2.根据权利要求1所述的数据处理方法,其特征在于,在获取对联机分析处理中的数据进行分区得到的多个分区之前,所述数据处理方法还包括: 对所述联机分析处理中的数据进行分区处理,得到对应于多个时间段的多个第一分区; 将每个所述第一分区均划分为多个子分区;以及 将所述多个子分区作为对所述联机分析处理中的数据进行分区得到的多个分区。3.根据权利要求2所述的数据处理方法,其特征在于,所述多个子分区中的每个子分区包括同一哈希组的用户数据,在获取对联机分析处理中的数据进行分区得到的多个分区之后,所述数据处理方法还包括: 判断是否有新增加用户; 如果判断出有新增加的用户,则获取预先设置的哈希组;以及 将所述新增加用户的用户数据分配到所述预先设置的哈希组中。4.根据权利要求1所述的数据处理方法,其特征在于,将计算得到的所述多个分区的去重计数指标的用户数相加,得到所述联机分析处理中的去重计数的用户数包括: 查找所述去重计数指标的相关列; 由所述去重计数指标的相关列创建用户哈希映射列,其中,所述去重计数指标的相关列和所述用户哈希映射列为一一对应关系;以及 通过采用所述用户哈希映射列替换所述去重计数指标的相关列进行去重计数计算。5.根据权利要求4所述的数据处理方法,其特征在于,通过采用所述用户哈希映射列替换所述去重计数指标的相关列进行去重计数计算包括: 获取所述联机分析处理中的去重计数指标;以及 通过直接更改所述联机分析处理中的去重计数指标进行所述去重计数计算。6.一种用于联机分析处理的数据...

【专利技术属性】
技术研发人员:洪超
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1