结合输入数据量的Spark离线任务资源调度优化方法技术

技术编号：43880905 阅读：30 留言：0更新日期：2024-12-31 19:04

本申请涉及一种结合输入数据量的Spark离线任务资源调度优化方法，通过采集并解析Spark离线任务，得到所述Spark离线任务的数据表的行数，并计算所述数据表的行数；基于预设的资源规则列表，对上述统计的总行数进行匹配，得到对应的所述计算资源规则；根据所述计算资源规则，将所述Spark离线任务调度发送至对应的执行节点进行执行。能够结合Spark离线任务数据表的行数的属性，进行计算资源的优化调度，使得在实际计算的过程中能够根据Spark任务输入数据表的数据量，动态按照预设规则进行资源参数配置，以此优化计算资源的分配，提高计算效率，促使Spark离线任务高效运行，有效满足客户需求。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及任务管理，尤其涉及一种结合输入数据量的spark离线任务资源调度优化方法、系统和电子设备。

技术介绍

1、spark离线任务在运行过程中，若单个任务的计算资源（driver-memory、driver-cores、num-executors、executor-memory、executor-cores）没有特别指定，那么driver的资源将按照默认配置设定，executor的资源将按照实际输入的数据量、文件个数动态指定。

2、但在实际应用场景中，会有如下几类情形：

3、计算量大的任务必然会占用过多的计算资源，但是这些任务的执行时效可能不着急，因此可以对这类任务设置更小的计算资源；

4、面向业务或高级管理的数据任务是优先级比较高的任务，期望更快完成，因此需要拿到更多的计算资源来保证计算时长不会很长。

5、而对于单个客户而言，客户期望业务数据特点是稳定的。因此对于不同数据规模的spark任务，可以按照数据量设置一个相对的标准，在实际计算的过程中能够根据spark任务输入数据表的数据量...

【技术保护点】

1.一种结合输入数据量的Spark离线任务资源调度优化方法，其特征在于，包括如下步骤：

2.根据权利要求1所述结合输入数据量的Spark离线任务资源调度优化方法，其特征在于，S1、预设构建由不同行数与对应计算资源规则组成的资源规则列表，包括：

3.根据权利要求1所述结合输入数据量的Spark离线任务资源调度优化方法，其特征在于，S2、采集并解析所述Spark离线任务，得到所述Spark离线任务的数据表的行数，并计算所述数据表的行数，包括：

4.根据权利要求1所述结合输入数据量的Spark离线任务资源调度优化方法，其特征在于，S3、基于所述资源规则列表，...

【技术特征摘要】

1.一种结合输入数据量的spark离线任务资源调度优化方法，其特征在于，包括如下步骤：

2.根据权利要求1所述结合输入数据量的spark离线任务资源调度优化方法，其特征在于，s1、预设构建由不同行数与对应计算资源规则组成的资源规则列表，包括：

3.根据权利要求1所述结合输入数据量的spark离线任务资源调度优化方法，其特征在于，s2、采集并解析所述spark离线任务，得到所述spark离线任务的数据表的行数，并计算所述数据表的行数，包括：

4.根据权利要求1所述结合输入数据量的spark离线任务资源调度优化方法，其特征在于，s3、基于所述资源规则列表，对所述数据表的行数进行匹配，得到对应的所述计算资源规则，包括：

5.根...

【专利技术属性】
技术研发人员：石凯，吴宝琪，
申请(专利权)人：杭州观远数据有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人