UV计算方法、装置制造方法及图纸

技术编号:13589613 阅读:95 留言:0更新日期:2016-08-25 17:03
本申请公开了一种UV计算方法、装置,其对于不存在从属关系的多个待统计维度,通过对原始访问数据进行预处理,得到并存储每个待统计维度对应的数据临时表,并对该数据临时表中待统计维度的不同维度值设置不同的维度值标签;当有UV计算需求时,只需根据相应的数据临时表,统计相应的维度值标签的数量,即得到所要统计的用户数量。另外,对于存在父子层级关系的多个待统计维度,根据该父子层级关系对原始访问数据进行分组并排序,根据排序结果统计处于最下层的待统计子维度对应的用户数量,进而通过逐层向上累加得到各个待统计父维度对应的用户数量,即本申请充分利用待统计维度之间的层级关系,达到减少数据读取次数、提高计算效率的目的。

【技术实现步骤摘要】

本专利技术涉及数据统计
,特别是涉及UV计算方法、装置
技术介绍
在互联网领域,独立访客(UniqueVisitor,UV),是指访问某个站点或点击某条新闻的自然人,是最能真实反映目标站点访问量的指标。通过统计访问某个站点或点击某条新闻的UV,进而分析UV的属性特征,可以作为制定网站运营、新闻更新、广告投放等策略的依据。例如,通过统计点击某条广告的UV的年龄、性别等属性特征,可以确定关注该广告的用户群体,进而在下次投放同类型广告时,只对该用户群体进行投放,以节省广告投放成本,提高广告点击率。现有UV计算方法在需要按照某个维度统计UV时,直接在原始访问数据中针对该维度进行查询、统计,得到对应的UV数据;例如,要统计访问目标站点的用户群体中不同性别的用户数量分别有多少,则依照现有UV计算方法,直接从原始访问数据中依次读取每一条数据,确定其用户性别为“女”还是“男”,如果是“女”,则在女性用户计数值上加1,依次遍历原始访问数据,最终得到的女性用户计数值和男性用户计数值即为计算结果。但是,实际应用中,原始访问数据的数据量通常是很大的,以视频广告数据为例,其数据量在PB(Petabyte)级别,从而导致上述UV计算方法的工作量很大,计算效率低,需要长时间占用相关资源。因此,有必要提供一种UV计算优化方法,以应对大数据量的UV计算。
技术实现思路
为了解决上述技术问题,本申请公开了一种UV计算方法、装置。第一方面,本申请提供了一种UV计算方法,所述方法包括:获取原始访问数据,并针对每条原始访问数据的各个待统计维度,分别设置相应的维度标签;针对每个所述维度标签,分别从所述原始访问数据中提取至少包括所述维度标签对应的待统计维度和用户标识两个字段在内的数据,生成所述维度标签对应的数据临时表;针对每个数据临时表中的各条数据,设置与其待统计维度的维度值一一对应的维度值标签;根据所述维度值标签统计相应维度值对应的用户数量。结合第一方面,在第一方面第一种可行的实施方式中,分别从所述原始访问数据中提取至少包括所述维度标签对应的待统计维度和用户标识两个字段在内的数据,生成所述维度标签对应的数据临时表,包括:利用Hive工具的multi_insert函数从所述原始访问数据中提取至少包括所述维度标签对应的待统计维度和用户标识两个字段在内的数据,插入相应维度标签对应的数据临时表。第二方面,本申请提供了一种UV计算方法,所述方法包括:获取原始访问数据;其中,所述原始访问数据包括多个待统计维度,各个待统计维度之间存在父子层级关系;根据所述待统计维度中待统计父维度的维度值对所述原始访问数据进行分组,并根据所述待统计父维度对应的待统计子维度的维度值对同一组中的原始访问数据进行排序;根据所述排序结果,统计维度中处于最下层的待统计子维度对应的用户数量;根据所述待统计子维度对应的用户数量,及各个待统计维度之间的父子层级关系,逐层向上累加得到各个层级的待统计维度对应的用户数量。结合第二方面,在第二方面第一种可行的实施方式中,在对所述原始访问数据进行分组之前,所述方法还包括:针对每条原始访问数据的各个待统计维度,分别设置相应的维度标签,以便在执行后续步骤时根据所述维度标签区分不同的待统计维度。结合第二方面,或者第二方面第一种可行的实施方式,在第二方面第二种可行的实施方式中,在对所述原始访问数据进行分组之前,所述方法还包括:对所述原始访问数据进行去重操作。第三方面,本申请提供了一种UV计算装置,所述装置包括:原始数据获取单元,用于获取原始访问数据,并针对每条原始访问数据的各个待统计维度,分别设置相应的维度标签;临时表生成单元,用于针对每个所述维度标签,分别从所述原始访问数据中提取至少包括所述维度标签对应的待统计维度和用户标识两个字段在内的数据,生成所述维度标签对应的数据临时表;维度值标签设置单元,用于针对每个数据临时表中的各条数据,设置与其待统计维度的维度值一一对应的维度值标签;UV统计单元,用于根据所述维度值标签统计相应维度值对应的用户数量。结合第三方面,在第三方面第一种可行的实施方式中,为生成各个维度标签对应的数据临时表,所述临时表生成单元被配置为:利用Hive工具的multi_insert函数从所述原始访问数据中提取至少包括所述维度标签对应的待统计维度和用户标识两个字段在内的数据,插入相应维度标签对应的数据临时表。第四方面,本申请提供了一种UV计算装置,所述装置包括:原始数据获取单元,用于获取原始访问数据;其中,所述原始访问数据包括多个待统计维度,各个待统计维度之间存在父子层级关系;分组排序单元,用于根据所述待统计维度中待统计父维度的维度值对所述原始访问数据进行分组,并根据所述待统计父维度对应的待统计子维度的维度值对同一组中的原始访问数据进行排序;UV统计单元,用于根据所述排序结果,统计维度中处于最下层的待统计子维度对应的用户数量;UV计算单元,用于根据所述待统计子维度对应的用户数量,及各个待统计维度之间的父子层级关系,逐层向上累加得到各个层级的待统计维度对应的用户数量。结合第四方面,在第四方面第一种可行的实施方式中,所述装置还包括:维度标签设置单元,用于在对所述原始访问数据进行分组之前,针对每条原始访问数据的各个待统计维度,分别设置相应的维度标签,以便在执行后续步骤时根据所述维度标签区分不同的待统计维度。结合第四方面,或者第四方面第一种可行的实施方式,在第四方面第二种可行的实施方式中,所述装置还包括:数据去重单元,用于在对所述原始访问数据进行分组之前,对所述原始访问数据进行去重操作。由以上技术方案可知,对于不存在从属关系的多个待统计维度,本申请通过对原始访问数据进行预处理,得到并存储每个待统计维度对应的数据临时表,且该数据临时表中待统计维度的不同维度值(或维度值区间)设置有不同的维度值标签;当有UV计算需求时,只需根据相应的数据临时表,统计相应的维度值标签的数量,就可以得到所要统计的用户数量;即对于不存在从属关系的多个待统计维度,本申请实施例以少量的数据临时表存储空间为代价,达到节省大量UV计算时间的目的。另外,对于存在父子层级关系的多个待统计维度,本申请根据该父子层级关系对原始访问数据进行分组并排序,根据排序结果统计处于最下层的待统计子维度对应的用户数量,进而通过逐层向上累加得到各个待统计父维度对应的用户数量,即充分利用待统计维度之间的层级关系,达到减少数据读取次数、提高计算效率的目的。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请一个实施例提供的UV计算方法的流程图;图2为本申请另一个实施例提供的UV计算方法的流程图;图3为本申请一个实施例提供的UV计算装置的结构框图;图4为本申请另一个实施例提供的UV计算装置的结构框图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本专利技术相一致的所有实施方式。相反,本文档来自技高网...

【技术保护点】
一种UV计算方法,其特征在于,包括:获取原始访问数据,并针对每条原始访问数据的各个待统计维度,分别设置相应的维度标签;针对每个所述维度标签,分别从所述原始访问数据中提取至少包括所述维度标签对应的待统计维度和用户标识两个字段在内的数据,生成所述维度标签对应的数据临时表;针对每个数据临时表中的各条数据,设置与其待统计维度的维度值一一对应的维度值标签;根据所述维度值标签统计相应维度值对应的用户数量。

【技术特征摘要】
1.一种UV计算方法,其特征在于,包括:获取原始访问数据,并针对每条原始访问数据的各个待统计维度,分别设置相应的维度标签;针对每个所述维度标签,分别从所述原始访问数据中提取至少包括所述维度标签对应的待统计维度和用户标识两个字段在内的数据,生成所述维度标签对应的数据临时表;针对每个数据临时表中的各条数据,设置与其待统计维度的维度值一一对应的维度值标签;根据所述维度值标签统计相应维度值对应的用户数量。2.根据权利要求1所述的方法,其特征在于,分别从所述原始访问数据中提取至少包括所述维度标签对应的待统计维度和用户标识两个字段在内的数据,生成所述维度标签对应的数据临时表,包括:利用Hive工具的multi_insert函数从所述原始访问数据中提取至少包括所述维度标签对应的待统计维度和用户标识两个字段在内的数据,插入相应维度标签对应的数据临时表。3.一种UV计算方法,其特征在于,包括:获取原始访问数据;其中,所述原始访问数据包括多个待统计维度,各个待统计维度之间存在父子层级关系;根据所述待统计维度中待统计父维度的维度值对所述原始访问数据进行分组,并根据所述待统计父维度对应的待统计子维度的维度值对同一组中的原始访问数据进行排序;根据所述排序结果,统计维度中处于最下层的待统计子维度对应的用户数量;根据所述待统计子维度对应的用户数量,及各个待统计维度之间的父子层级关系,逐层向上累加得到各个层级的待统计维度对应的用户数量。4.根据权利要求3所述的方法,其特征在于,在对所述原始访问数据进行分组之前,所述方法还包括:针对每条原始访问数据的各个待统计维度,分别设置相应的维度标签,以便在执行后续步骤时根据所述维度标签区分不同的待统计维度。5.根据权利要求3或4所述的方法,其特征在于,在对所述原始访问数据进行分组之前,所述方法还包括:对所述原始访问数据进行去重操作。6.一种UV计算装置,其特征在于,包括:原始数据获取单元,...

【专利技术属性】
技术研发人员:姚会航
申请(专利权)人:乐视网信息技术北京股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1