处理方法和处理装置制造方法及图纸

技术编号：21453678 阅读：34 留言：0更新日期：2019-06-26 04:42

本申请公开一种处理方法，应用于集群中的计算节点，包括：统计计算节点中待处理数据的数据量；获得计算节点的指定的初始并行度，并基于待处理数据的数据量处理初始并行度。通过待处理数据的数据量处理指定的初始并行度，可以动态调整Shuffle任务所占用的计算资源，从而提高平台整体的计算效率和资源利用率。

全部详细技术资料下载

【技术实现步骤摘要】
处理方法和处理装置
本申请涉及大数据
，更具体地说，涉及一种处理方法和处理装置。
技术介绍
Spark是一种基于内存计算的分布式大数据并行处理平台，它集批处理、实时流处理、交互式查询与图计算于一体。现有Spark往往基于预设参数确定Shuffle的并行度，但在处理过程中就很容易出现物理资源浪费。
技术实现思路
为解决上述问题，本申请提供如下技术方案：一种处理方法，应用于集群中的计算节点，包括：统计所述计算节点中待处理数据的数据量；获得所述计算节点的指定的初始并行度，并基于所述待处理数据的数据量处理所述初始并行度。优选的，其中，所述统计所述计算节点中待处理数据的数据量，包括：至少获得所述待处理数据的需求内存。优选的，其中，所述基于所述待处理数据的数据量处理所述初始并行度，包括：至少基于所述待处理数据的需求内存确定所述计算节点的并行度允许范围；根据所述并行度允许范围处理所述初始并行度。优选的，其中，所述至少基于所述待处理数据的需求内存确定所述计算节点的并行度允许范围，包括：根据所述待处理数据的需求内存和预设内存分区规则确定所述计算节点的第一并行度允许范围。优选的，其中，所述至少基于所述待处理数据的需求内存确定所述计算节点的并行度允许范围，还包括：根据所述待处理数据的数据行数和预设行数分区规则处理所述第一并行度允许范围，得到第二并行度允许范围。优选的，所述方法还包括：获得所述计算节点的硬件状态，并基于所述计算节点的硬件状态调整所述初始并行度的处理结果。优选的，其中，所述获得所述计算节点的硬件状态，包括：获得所述计算节点中CPU核的数量。优选的，其中，所述获得所...

【技术保护点】
1.一种处理方法，应用于集群中的计算节点，包括：统计所述计算节点中待处理数据的数据量；获得所述计算节点的指定的初始并行度，并基于所述待处理数据的数据量处理所述初始并行度。

【技术特征摘要】
1.一种处理方法，应用于集群中的计算节点，包括：统计所述计算节点中待处理数据的数据量；获得所述计算节点的指定的初始并行度，并基于所述待处理数据的数据量处理所述初始并行度。2.根据权利要求1所述的方法，其中，所述统计所述计算节点中待处理数据的数据量，包括：至少获得所述待处理数据的需求内存。3.根据权利要求2所述的方法，其中，所述基于所述待处理数据的数据量处理所述初始并行度，包括：至少基于所述待处理数据的需求内存确定所述计算节点的并行度允许范围；根据所述并行度允许范围处理所述初始并行度。4.根据权利要求3所述的方法，其中，所述至少基于所述待处理数据的需求内存确定所述计算节点的并行度允许范围，包括：根据所述待处理数据的需求内存和预设内存分区规则确定所述计算节点的第一并行度允许范围。5.根据权利要求4所述的方法，其中，所述至少基于所述待处理数据的需求内存确定所述计算节点的...

【专利技术属性】
技术研发人员：李栋，
申请(专利权)人：联想北京有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人