【技术实现步骤摘要】
本公开涉及任务管理,尤其涉及一种结合输入数据量的spark离线任务资源调度优化方法、系统和电子设备。
技术介绍
1、spark离线任务在运行过程中,若单个任务的计算资源(driver-memory、driver-cores、num-executors、executor-memory、executor-cores)没有特别指定,那么driver的资源将按照默认配置设定,executor的资源将按照实际输入的数据量、文件个数动态指定。
2、但在实际应用场景中,会有如下几类情形:
3、计算量大的任务必然会占用过多的计算资源,但是这些任务的执行时效可能不着急,因此可以对这类任务设置更小的计算资源;
4、面向业务或高级管理的数据任务是优先级比较高的任务,期望更快完成,因此需要拿到更多的计算资源来保证计算时长不会很长。
5、而对于单个客户而言,客户期望业务数据特点是稳定的。因此对于不同数据规模的spark任务,可以按照数据量设置一个相对的标准,在实际计算的过程中能够根据spark任务输入数据表的数据量
...【技术保护点】
1.一种结合输入数据量的Spark离线任务资源调度优化方法,其特征在于,包括如下步骤:
2.根据权利要求1所述结合输入数据量的Spark离线任务资源调度优化方法,其特征在于,S1、预设构建由不同行数与对应计算资源规则组成的资源规则列表,包括:
3.根据权利要求1所述结合输入数据量的Spark离线任务资源调度优化方法,其特征在于,S2、采集并解析所述Spark离线任务,得到所述Spark离线任务的数据表的行数,并计算所述数据表的行数,包括:
4.根据权利要求1所述结合输入数据量的Spark离线任务资源调度优化方法,其特征在于,S3、基
...【技术特征摘要】
1.一种结合输入数据量的spark离线任务资源调度优化方法,其特征在于,包括如下步骤:
2.根据权利要求1所述结合输入数据量的spark离线任务资源调度优化方法,其特征在于,s1、预设构建由不同行数与对应计算资源规则组成的资源规则列表,包括:
3.根据权利要求1所述结合输入数据量的spark离线任务资源调度优化方法,其特征在于,s2、采集并解析所述spark离线任务,得到所述spark离线任务的数据表的行数,并计算所述数据表的行数,包括:
4.根据权利要求1所述结合输入数据量的spark离线任务资源调度优化方法,其特征在于,s3、基于所述资源规则列表,对所述数据表的行数进行匹配,得到对应的所述计算资源规则,包括:
5.根...
【专利技术属性】
技术研发人员:石凯,吴宝琪,
申请(专利权)人:杭州观远数据有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。