结合输入数据量的Spark离线任务资源调度优化方法技术

技术编号:43880905 阅读:30 留言:0更新日期:2024-12-31 19:04
本申请涉及一种结合输入数据量的Spark离线任务资源调度优化方法,通过采集并解析Spark离线任务,得到所述Spark离线任务的数据表的行数,并计算所述数据表的行数;基于预设的资源规则列表,对上述统计的总行数进行匹配,得到对应的所述计算资源规则;根据所述计算资源规则,将所述Spark离线任务调度发送至对应的执行节点进行执行。能够结合Spark离线任务数据表的行数的属性,进行计算资源的优化调度,使得在实际计算的过程中能够根据Spark任务输入数据表的数据量,动态按照预设规则进行资源参数配置,以此优化计算资源的分配,提高计算效率,促使Spark离线任务高效运行,有效满足客户需求。

【技术实现步骤摘要】

本公开涉及任务管理,尤其涉及一种结合输入数据量的spark离线任务资源调度优化方法、系统和电子设备。


技术介绍

1、spark离线任务在运行过程中,若单个任务的计算资源(driver-memory、driver-cores、num-executors、executor-memory、executor-cores)没有特别指定,那么driver的资源将按照默认配置设定,executor的资源将按照实际输入的数据量、文件个数动态指定。

2、但在实际应用场景中,会有如下几类情形:

3、计算量大的任务必然会占用过多的计算资源,但是这些任务的执行时效可能不着急,因此可以对这类任务设置更小的计算资源;

4、面向业务或高级管理的数据任务是优先级比较高的任务,期望更快完成,因此需要拿到更多的计算资源来保证计算时长不会很长。

5、而对于单个客户而言,客户期望业务数据特点是稳定的。因此对于不同数据规模的spark任务,可以按照数据量设置一个相对的标准,在实际计算的过程中能够根据spark任务输入数据表的数据量,动态按照预设规则进本文档来自技高网...

【技术保护点】

1.一种结合输入数据量的Spark离线任务资源调度优化方法,其特征在于,包括如下步骤:

2.根据权利要求1所述结合输入数据量的Spark离线任务资源调度优化方法,其特征在于,S1、预设构建由不同行数与对应计算资源规则组成的资源规则列表,包括:

3.根据权利要求1所述结合输入数据量的Spark离线任务资源调度优化方法,其特征在于,S2、采集并解析所述Spark离线任务,得到所述Spark离线任务的数据表的行数,并计算所述数据表的行数,包括:

4.根据权利要求1所述结合输入数据量的Spark离线任务资源调度优化方法,其特征在于,S3、基于所述资源规则列表,...

【技术特征摘要】

1.一种结合输入数据量的spark离线任务资源调度优化方法,其特征在于,包括如下步骤:

2.根据权利要求1所述结合输入数据量的spark离线任务资源调度优化方法,其特征在于,s1、预设构建由不同行数与对应计算资源规则组成的资源规则列表,包括:

3.根据权利要求1所述结合输入数据量的spark离线任务资源调度优化方法,其特征在于,s2、采集并解析所述spark离线任务,得到所述spark离线任务的数据表的行数,并计算所述数据表的行数,包括:

4.根据权利要求1所述结合输入数据量的spark离线任务资源调度优化方法,其特征在于,s3、基于所述资源规则列表,对所述数据表的行数进行匹配,得到对应的所述计算资源规则,包括:

5.根...

【专利技术属性】
技术研发人员:石凯吴宝琪
申请(专利权)人:杭州观远数据有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1