一种数据处理的方法、装置及电子设备制造方法及图纸

技术编号：40480817 阅读：5 留言：0更新日期：2024-02-26 19:15

本说明书一个或多个实施例公开了一种数据处理的方法、装置及电子设备。所述方法包括：将一组原始数据集中的每条原始数据与预设的指标条件进行匹配，确定与每条所述原始数据匹配的指标条件，所述一组原始数据集中包含至少一个原始数据集；使用每个与所述原始数据匹配的指标条件对应的度量方式，对所述原始数据进行度量操作，得到所述原始数据在每个与所述原始数据匹配的指标条件下的度量值；根据所述原始数据在每个与所述原始数据匹配的指标条件下的度量值，构建每个所述原始数据集对应的中间表；将每个所述原始数据集对应的中间表中同类原始数据对应的记录行进行第一聚合操作，得到所述一组原始数据集对应的聚合表。

全部详细技术资料下载

【技术实现步骤摘要】

本说明书涉及数据处理，尤其涉及一种数据处理的方法、装置及电子设备。

技术介绍

1、在大数据计算框架中，不管是最初的map-reduce(分布式并行计算框架)还是时下火热的spark(流式处理计算框架)、flink(分布式计算框架)，采取的大多是分治的思想：在单个计算节点的计算能力有限的情况下，将需要计算的任务划分成若干个子任务并行执行，最后，对子任务的结果做合并以得到最终结果。

2、在合并过程中，上述计算框架通常使用混洗(shuffle)机制。shuffle过程是进行数据在整个集群中的重组和排序，这是一个非常消耗资源的过程，涉及了磁盘io(输入输出)、数据序列化和反序列化和网络io(输入输出)等，因此，shuffle阶段的数据处理速度直接影响整个计算集群的性能和计算成本。因此，目前亟需提供一种更优的数据处理的方案。

技术实现思路

1、本说明书实施例提供一种数据处理的方法、装置及电子设备，以提高shuffle阶段的数据处理速度。

2、第一方面，本说明书一个或多个实施例提供一种数据处理的方法，包括：将一组原始数据集中的每条原始数据与预设的指标条件进行匹配，确定与每条所述原始数据匹配的指标条件，所述一组原始数据集中包含至少一个原始数据集；使用每个与所述原始数据匹配的指标条件对应的度量方式，对所述原始数据进行度量操作，得到所述原始数据在每个与所述原始数据匹配的指标条件下的度量值；根据所述原始数据在每个与所述原始数据匹配的指标条件下的度量值，构建每个所述原始数据集对应

3、第二方面，本申请实施例提供了一种数据处理的装置，包括：将一组原始数据集中的每条原始数据与预设的指标条件进行匹配，确定与每条所述原始数据匹配的指标条件，所述一组原始数据集中包含至少一个原始数据集；使用每个与所述原始数据匹配的指标条件对应的度量方式，对所述原始数据进行度量操作，得到所述原始数据在每个与所述原始数据匹配的指标条件下的度量值；根据所述原始数据在每个与所述原始数据匹配的指标条件下的度量值，构建每个所述原始数据集对应的中间表，所述中间表中的每条记录行用于指示每条所述原始数据在各个与所述原始数据匹配的指标条件下的度量值；将每个所述原始数据集对应的中间表中同类原始数据对应的记录行进行第一聚合操作，得到所述一组原始数据集对应的聚合表，所述聚合表中的每条记录行用于指示各个所述原始数据集中每一类原始数据在匹配的每个所述指标条件下的第一聚合值。

4、第三方面，本申请实施例提供了一种电子设备，该电子设备包括：处理器，以及被安排成存储计算机可执行指令的存储器，在所述可执行指令被执行时，能够使得所述处理器：将一组原始数据集中的每条原始数据与预设的指标条件进行匹配，确定与每条所述原始数据匹配的指标条件，所述一组原始数据集中包含至少一个原始数据集；使用每个与所述原始数据匹配的指标条件对应的度量方式，对所述原始数据进行度量操作，得到所述原始数据在每个与所述原始数据匹配的指标条件下的度量值；根据所述原始数据在每个与所述原始数据匹配的指标条件下的度量值，构建每个所述原始数据集对应的中间表，所述中间表中的每条记录行用于指示每条所述原始数据在各个与所述原始数据匹配的指标条件下的度量值；将每个所述原始数据集对应的中间表中同类原始数据对应的记录行进行第一聚合操作，得到所述一组原始数据集对应的聚合表，所述聚合表中的每条记录行用于指示各个所述原始数据集中每一类原始数据在匹配的每个所述指标条件下的第一聚合值。

5、第四方面，本说明书实施例提供一种存储介质，用于存储计算机程序，所述计算机程序能够被处理器执行以实现以下流程：将一组原始数据集中的每条原始数据与预设的指标条件进行匹配，确定与每条所述原始数据匹配的指标条件，所述一组原始数据集中包含至少一个原始数据集；使用每个与所述原始数据匹配的指标条件对应的度量方式，对所述原始数据进行度量操作，得到所述原始数据在每个与所述原始数据匹配的指标条件下的度量值；根据所述原始数据在每个与所述原始数据匹配的指标条件下的度量值，构建每个所述原始数据集对应的中间表，所述中间表中的每条记录行用于指示每条所述原始数据在各个与所述原始数据匹配的指标条件下的度量值；将每个所述原始数据集对应的中间表中同类原始数据对应的记录行进行第一聚合操作，得到所述一组原始数据集对应的聚合表，所述聚合表中的每条记录行用于指示各个所述原始数据集中每一类原始数据在匹配的每个所述指标条件下的第一聚合值。

本文档来自技高网...

【技术保护点】

1.一种数据处理的方法，包括：

2.根据权利要求1所述的方法，每个所述指标条件根据相同的指标维度构建，所述根据所述原始数据在每个与所述原始数据匹配的指标条件下的度量值，构建每个所述原始数据集对应的中间表，包括：

3.根据权利要求2所述的方法，所述将所述原始数据对应的指标维度值作为维度列、所述原始数据在每个与所述原始数据匹配的指标条件下的度量值作为指标列，构建每个所述原始数据集对应的中间表，包括：

4.根据权利要求2所述的方法，所述将每个所述原始数据集对应的中间表中同类原始数据对应的记录行进行第一聚合操作，得到所述一组原始数据集对应的聚合表，包括：

5.根据权利要求4所述的方法，所述基于预设的聚合函数，将同一类型中各条记录行对应的度量值进行第一聚合操作，得到每一类型的所述原始数据对应的第一聚合值，包括：

6.根据权利要求4所述的方法，所述方法还包括：

7.根据权利要求2所述的方法，所述指标条件的构建方法，包括：

8.根据权利要求1所述的方法，所述方法还包括：

9.一种数据处理的装置，包括：

10.一种电子设备，包括：

...

【技术特征摘要】

1.一种数据处理的方法，包括：

4.根据权利要求2所述的方法，所述将每个所述原始数据集对应的中间表中同类原始数据对...

【专利技术属性】
技术研发人员：赖宁，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人