一种数据处理方法、装置及计算机存储介质制造方法及图纸

技术编号:27436825 阅读:26 留言:0更新日期:2021-02-25 03:28
本发明专利技术实施例公开一种数据处理方法、装置及计算机存储介质,方法包括:获取数据源实时生产的数据,基于第一时间粒度将数据划分为批次。对划分形成的批次进行汇总形成第一时间粒度的汇总结果,并存储批次的第一时间粒度的汇总结果。本发明专利技术实施例提供了差异化的时间粒度的汇总结果,能够满足各种数据挖掘对数据汇总结果的多样性要求。结果的多样性要求。结果的多样性要求。

【技术实现步骤摘要】
一种数据处理方法、装置及计算机存储介质


[0001]本专利技术涉及数据挖掘领域,尤其涉及一种数据处理方法、装置及计算机存储介质。

技术介绍

[0002]大数据技术和数据挖掘技术在各领域的广泛应用,随着数据量的不断增大,为了提高数据挖掘的效率,得到更准确的数据挖掘结果,在数据挖掘前往往要对数据进行汇总,形成可读性和可操作性均较强的数据资产,以供不同的上层应用调用并进行不同类型的数据挖掘。
[0003]现有的数据汇总方法往往通过对离线数据进行汇总得到粗时间粒度的汇总结果,这种数据汇总方法仅能提供一种时间粒度的汇总结果,无法满足各种数据挖掘对数据汇总结果的多样性要求。

技术实现思路

[0004]本专利技术实施例提供一种能够满足各种数据挖掘对数据汇总结果的多样性要求的数据处理方法、装置及计算机存储介质。
[0005]本专利技术实施例的技术方案是这样实现的:
[0006]本专利技术实施例供一种数据处理方法,所述方法包括:
[0007]获取数据源实时生产的数据,基于第一时间粒度将所述数据划分为批次;
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取数据源实时生产的数据,基于第一时间粒度将所述数据划分为批次;对划分形成的批次进行汇总形成第一时间粒度的汇总结果,并存储所述批次的第一时间粒度的汇总结果;基于第二时间粒度获取存储的第一时间粒度的汇总结果,所述第二时间粒度大于所述第一时间粒度;对所述第二时间粒度内的汇总结果进行汇总形成第二时间粒度的汇总结果,并存储所述第二时间粒度的汇总结果。2.根据权利要求1所述的方法,其特征在于,所述基于第一时间粒度将所述数据划分为批次,包括:确定所述实时生产的数据中满足质量稽核条件的数据;基于第一时间粒度将所述满足质量稽核条件的数据划分为批次。3.根据权利要求1所述的方法,其特征在于,所述对划分形成的批次进行汇总形成第一时间粒度的汇总结果,包括:通过第一集群对划分形成的所述批次进行汇总,对应得到每个所述批次的第一时间粒度的汇总结果;所述对所述第二时间粒度内的汇总结果进行汇总形成第二时间粒度的汇总结果,包括:通过所述第一集群将所述第二时间粒度内所包括的第一时间粒度的汇总结果划分为块;通过所述第一集群对各所述块进行汇总,分别得到各所述块的汇总结果;通过所述第一集群将各所述块的汇总结果组合,得到所述第二时间粒度的汇总结果。4.根据权利要求1或3所述的方法,其特征在于,所述存储所述批次的第一时间粒度的汇总结果,包括:将所述第一时间粒度的汇总结果存入第一集群的分布式文件系统中;所述存储所述第二时间粒度的汇总结果,包括:将所述第二时间粒度的汇总结果存入所述第一集群的所述分布式文件系统中。5.根据权利要求1或3所述的方法,其特征在于,所述方法还包括:将分布式文件系统中的所述第一时间粒度的汇总结果和所述第二时间粒度的汇总结果导入第一集群的数据仓库中;所述数据仓库中所述第二时间粒度的汇总结果的格式转换,以根据所转换的格式存储到以下至少一个:关系数据库、非关系数据库、内存数据库和分布式文件系统。6.根据权利要求1所述的方法,其特征在于,所述对划分形成的批次进行汇总形成第一时间粒度的汇总结果,包括:通过第一集群对划分形成的所述批次进行汇总,对应得到每个所述批次的所述第一时间粒度的汇总结果;所述对所述第二时间粒度内的汇总结果进行汇总形成第二时间粒度的汇总结果,包括:通过第二集群将所述第二时间粒度内的汇总结果划分为块;
通过所述第二集群对各所述块进行汇总,分别得到各所述块的汇总结果;通过所述第二集群将各所述块的汇总结果组合,得到所述第二时间粒度的汇总结果。7.根据权利要求1或6所述的方法,其特征在于,所述存储所述批次的第一时间粒度的汇总结果,包括:将所述第一时间粒度的汇总结果存入第一集群的分布式文件系统中;将所述第一时间粒度的汇总结果导入所述第一集群的第一数据仓库中;所述基于第二时间粒度获取存储的第一时间粒度的汇总结果,包括:提取所述第二时间粒度内存储在所述第一数据仓库中的所述第一时间粒度的汇总结果;将提取的所述第一时间粒度的汇总结果导入第二集群的第二数据仓库中;所述存储所述第二时间粒度的汇总结果,包括:将所述第二时间粒度的汇总结果存入所述第二数据仓库中。8.根据权利要求1或6所述的方法,其特征在于,所述方法还包括:第二数据仓库中所述第二时间粒度的汇总结果的格式转换,以根据所转换的格式存储到以下至少一个:关系数据库、非关系数据库、内存数据库和分布式文件系统。9.根据权利要求1所述的方法,其特征在于,所述对划分形成的批次进行汇总形成第一时间粒度的汇总结果,包括:对划分形成的所述批次进行多维度聚合,对应得到每个所述批次的所述第一时间粒度的汇总结果;其中,所述第一时间粒度的汇总结果包括多个维度,各所述维度与数据挖掘的需求相对应,各所述维度为同领域数据挖掘时通用的信息。10.根据权利要求1或9所述的方法,其特征在于,所述对所述第二时间粒度内的汇总结果进行汇总形成第二时间粒度的汇总结果,包括:将所述第二时间粒度内的汇总结果划分为块,各所述块包括至少一个维度;对所述块中相同的所述维度进行汇总,得到各所述块的汇总结果;将各所述块的汇总结果组合得到所述第二时间粒度的汇总结果。11.一种数据处理装置,其特征在于,所述装置包括:获取模块,用于获取数据源实时生产的数据;划分模块,用于基于第一时间粒度将所述数据划分为批次;汇总模块,用于对划分形成的批次进行汇总形成第一时间粒度的汇总结果;存储模...

【专利技术属性】
技术研发人员:张娜
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1