System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 去重计数方法、装置、设备及存储介质制造方法及图纸_技高网

去重计数方法、装置、设备及存储介质制造方法及图纸

技术编号:40003173 阅读:5 留言:0更新日期:2024-01-09 04:14
本公开提供一种去重计数方法、装置、设备及存储介质,该方案中数据表中的每条数据记录包含:用于进行去重计数的关键字段和分别对应不同的数据维度的若干数据字段;所述关键字段用于存储与所述数据记录对应的数据标识;所述数据字段用于存储与所述数据记录对应的数据内容;基于关键字段中存储的数据标识,对相同的多条数据记录进行数据记录合并,得到第一预处理数据记录;接着,各个数据字段中存储的数据内容均相同的多条第一预处理数据记录进行数据内容合并,得到第二预处理数据记录;由于预先对数据表进行了两次合并,因此能够减少数据表的数据量,并且基于数据内容合并完成的数据表进行去重计数计算的计算速度较快。

【技术实现步骤摘要】

本公开涉及数据分析,尤其涉及去重计数方法、装置、设备及存储介质


技术介绍

1、去重计数使用广泛;例如:在网站或app(application,应用程序)等使用统计中,pv/uv是最常用的指标,其中uv(unique visitor,独立访问用户)就是需要去重计数的指标,即同一个用户在统计周期内的多次访问记录只计入一次。在大数据分析领域,数据量巨大,如何快速精确地进行去重计数,是该领域亟待解决的技术问题。


技术实现思路

1、为克服相关技术中存在的问题,本公开提供了去重计数方法、装置、设备及存储介质。

2、根据本说明书实施例的第一方面,提供一种去重计数方法,所述方法包括:

3、获取数据表,所述数据表中的每条数据记录包含:用于进行去重计数的关键字段和分别对应不同的数据维度的若干数据字段;所述关键字段用于存储与所述数据记录对应的数据标识;所述数据字段用于存储与所述数据记录对应的数据内容;

4、确定所述数据表中是否存在所述关键字段中存储的数据标识相同的多条数据记录;若是,对该多条数据记录进行数据记录合并,得到第一预处理数据记录;其中,所述第一预处理数据记录中包含的任一数据字段中存储的数据内容,为该多条数据记录中的各个数据记录所包含的该数据字段存储的数据内容,构成的数据内容集合;

5、响应于针对所述数据表的数据记录合并完成,进一步确定所述数据表中是否存在,所述关键字段中存储的数据标识不相同,并且各个数据字段中存储的数据内容均相同的多条第一预处理数据记录;若是,对该多条第一预处理数据记录进一步进行数据内容合并,得到第二预处理数据记录;其中,所述第二预处理数据记录中包含的任一数据字段中存储的数据内容,为该多条第一预处理数据记录中的各个第一预处理数据记录所包含的该数据字段存储的数据内容集合;所述第二预处理数据记录还包含新建的属性字段;所述属性字段用于存储与所述第二预处理数据记录中包含的各个数据字段存储的数据内容集合对应的集合数量;所述集合数量为该多条第一预处理数据记录的数量;

6、响应于针对所述数据表的数据内容合并完成,基于数据内容合并完成的所述数据表进行去重计数计算。

7、根据本说明书实施例的第二方面,提供一种去重计数装置,所述装置包括:

8、获取模块,获取数据表,所述数据表中的每条数据记录包含:用于进行去重计数的关键字段和分别对应不同的数据维度的若干数据字段;所述关键字段用于存储与所述数据记录对应的数据标识;所述数据字段用于存储与所述数据记录对应的数据内容;

9、数据记录合并模块,确定所述数据表中是否存在所述关键字段中存储的数据标识相同的多条数据记录;若是,对该多条数据记录进行数据记录合并,得到第一预处理数据记录;其中,所述第一预处理数据记录中包含的任一数据字段中存储的数据内容,为该多条数据记录中的各个数据记录所包含的该数据字段存储的数据内容,构成的数据内容集合;

10、数据内容合并模块,响应于针对所述数据表的数据记录合并完成,进一步确定所述数据表中是否存在,所述关键字段中存储的数据标识不相同,并且各个数据字段中存储的数据内容均相同的多条第一预处理数据记录;若是,对该多条第一预处理数据记录进一步进行数据内容合并,得到第二预处理数据记录;其中,所述第二预处理数据记录中包含的任一数据字段中存储的数据内容,为该多条第一预处理数据记录中的各个第一预处理数据记录所包含的该数据字段存储的数据内容集合;所述第二预处理数据记录还包含新建的属性字段;所述属性字段用于存储与所述第二预处理数据记录中包含的各个数据字段存储的数据内容集合对应的集合数量;所述集合数量为该多条第一预处理数据记录的数量;

11、计算模块,响应于针对所述数据表的数据内容合并完成,基于数据内容合并完成的所述数据表进行去重计数计算。

12、根据本说明书实施例的第三方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现前述第一方面所述去重计数方法实施例的步骤。

13、根据本说明书实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述第一方面所述去重计数方法实施例的步骤。

14、本说明书的实施例提供的技术方案可以包括以下有益效果:

15、本说明书实施例中,由于将相同用户标识的多条数据记录中任一数据字段中存储的数据内容合并构成第一预处理数据中相应数据字段存储的数据内容集合,接着对各个数据字段中存储的数据内容均相同的多条第一预处理数据记录合并为一条第二预处理数据记录,因此大幅度降低了数据记录的数量,而去重计算所需的数据量减少则提升了计算速度。

16、另外,本实施例方案能够提供精确计算结果;并且,对需要进行去重计数的数据类型没有要求,不需要像roaringbitmap(高效压缩位图)等方案使用哈希等算法转换为数值,本实施例方案的通用性更好。

17、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

本文档来自技高网...

【技术保护点】

1.一种去重计数方法,所述方法包括:

2.根据权利要求1所述的方法,所述第二预处理数据记录为未包含所述关键字段的数据记录;

3.根据权利要求1所述的方法,所述基于数据内容合并完成的所述数据表进行去重计数计算,包括:

4.根据权利要求3所述的方法,所述针对与目标数据维度对应的目标数据内容的去重计数值的计算请求,是通过如下方式获取到的:

5.根据权利要求1所述的方法,所述数据表包括:表示用户针对目标对象的点击数据表,所述关键字段用于存储与所述数据记录对应的用户标识;所述去重计数包括与用户针对所述目标对象的点击UV对应的去重计数。

6.根据权利要求1所述的方法,所述数据表包括:表示将目标对象曝光至用户的曝光数据表,所述关键字段用于存储与所述数据记录对应的用户标识;所述去重计数包括与目标对象针对用户的曝光UV对应的去重计数。

7.一种去重计数装置,所述装置包括:

8.根据权利要求7所述的装置,所述第二预处理数据记录为未包含所述关键字段的数据记录;

9.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至6任一所述方法的步骤。

10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现权利要求1至6任一所述方法的步骤。

...

【技术特征摘要】

1.一种去重计数方法,所述方法包括:

2.根据权利要求1所述的方法,所述第二预处理数据记录为未包含所述关键字段的数据记录;

3.根据权利要求1所述的方法,所述基于数据内容合并完成的所述数据表进行去重计数计算,包括:

4.根据权利要求3所述的方法,所述针对与目标数据维度对应的目标数据内容的去重计数值的计算请求,是通过如下方式获取到的:

5.根据权利要求1所述的方法,所述数据表包括:表示用户针对目标对象的点击数据表,所述关键字段用于存储与所述数据记录对应的用户标识;所述去重计数包括与用户针对所述目标对象的点击uv对应的去重计数。

6.根据权利要求1所述的方法...

【专利技术属性】
技术研发人员:相远飞樊振洲
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1