System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于Spark引擎的离线计算优化方案制造技术_技高网

一种基于Spark引擎的离线计算优化方案制造技术

技术编号:40653185 阅读:6 留言:0更新日期:2024-03-13 21:30
本发明专利技术涉及数字计算技术领域,尤其涉及一种基于Spark引擎的离线计算优化方案,包括,步骤S1,创建任务模板提交模式,并增加任务模板解析模块;步骤S2,判定计算任务是否为模板任务;步骤S3,对模板任务进行查找,确定是否有缓存对应的模板执行计划,并对无缓存模板任务生成模板执行计划并缓存;步骤S4,确定有缓存模板任务对应的任务模板,并进行件值替换,提交Executor执行。本发明专利技术通过增加带有任务模板和参数的任务提交方式,针对离线批量计算场景下的大量相似任务,既解决了执行计划反复生成带来的效率问题,也通过模板的方式,支持了计算任务关键参数的动态配置需求,从而提升整体离线计算性能。

【技术实现步骤摘要】

本专利技术涉及数字计算,尤其涉及一种基于spark引擎的离线计算优化方案。


技术介绍

1、周期性的离线计算任务调度是常见的大数据处理场景,比如按天、按周等进行数仓的etl过程,或者计算企业的一些运营数据,此类计算有几个显著特点,一、每次计算的逻辑及代码比较稳定,在开发完成后,很少发生变动;二、不同计算周期调度的计算过程往往只是一些关键参数发生变化,常见如日期;三、一个完整的计算流程有大量的计算任务,部分任务计算复杂,需要耗费较长的计算时间;四、经常发生计算失败,并需要计算重试。

2、中国专利公开号:cn116225407a公开了一种基于spark的离线数据处理系统,其是通过对系统的布置实现海量数据的处理分析,降低了海量数据处理操作的门槛;由此可见,现有常见方案都是根据计算需求,每次在提交任务前,获取当前参数值,修改计算任务对应参数后,提交完整计算任务给计算引擎。计算引擎根据任务生成执行计划并执行;另一方面spark作为大数据离线计算的常用计算引擎,一个计算任务从提交到执行,spark driver首先需要将计算任务,根据优化策略、数据分布等,转换成spark执行计划,包括逻辑执行及物理执行计划,并最终提交spark executor执行,对复杂计算任务,计划任务的生成需要耗费spark driver大量的计算资源及时间,既增加了spark driver的计算压力,也导致整个计算时间显著过长。


技术实现思路

1、为此,本专利技术提供一种基于spark引擎的离线计算优化方案,用以克服现有技术中由于spark driver的计算压力较大导致整个计算时间过长的问题。

2、为实现上述目的,本专利技术提供一种基于spark引擎的离线计算优化方案,包括,

3、步骤s1,创建spark任务模板提交模式,并在spark上增加任务模板解析模块;

4、步骤s2,判定spark接收到的计算任务是否为通过任务模板提交的模板任务或普通任务,并对普通任务直接通过spark进行解析并根据spark计算逻辑执行;

5、步骤s3,对模板任务进行查找,判定模板任务是否有缓存对应的模板执行计划,并在模板任务无缓存对应的模板执行计划时,通过任务模板解析模块生成模板执行计划并缓存;

6、步骤s4,在模板任务有缓存对应的模板执行计划时,确定模板执行计划对应的任务模板,并使用计算任务中的条件值替换所述任务模板中变化的参数部分生成可执行的执行计划,提交executor执行。

7、进一步地,所述任务模板由固定的计算逻辑代码部分和变化的参数部分组成。

8、进一步地,所述固定的计算逻辑代码部分,需要计算引擎进行解析计算;所述变化的参数部分为模板执行计划中可变化的条件值。

9、进一步地,所述任务模板解析模块用以将任务模板转换为可执行的执行计划。

10、进一步地,在所述步骤s4中,确定模板执行计划对应的任务模板时需忽略任务模板参数与底层数据的绑定。

11、与现有技术相比,本专利技术的有益效果在于,提出的任务提交方式,即模板任务+参数的方式;通过这种方式,特别是对离线批量计算场景下的大量相似任务,既解决了执行计划反复生成带来的效率问题,也通过模板的方式,支持了计算任务关键参数的动态配置需求,从而提升整体离线计算性能。

12、进一步地,由于任务模板所有参数是不定的无法绑定底层数据,因此忽略与底层数据的绑定,保证模板执行计划的正确生成。

本文档来自技高网...

【技术保护点】

1.一种基于Spark引擎的离线计算优化方案,其特征在于,包括,

2.根据权利要求1所述的基于Spark引擎的离线计算优化方案,其特征在于,所述任务模板由固定的计算逻辑代码部分和变化的参数部分组成。

3.根据权利要求2所述的基于Spark引擎的离线计算优化方案,其特征在于,所述固定的计算逻辑代码部分,需要计算引擎进行解析计算;所述变化的参数部分为模板执行计划中可变化的条件值。

4.根据权利要求1所述的基于Spark引擎的离线计算优化方案,其特征在于,所述任务模板解析模块用以将任务模板转换为可执行的执行计划。

5.根据权利要求1所述的基于Spark引擎的离线计算优化方案,其特征在于,在所述步骤S4中,确定模板执行计划对应的任务模板时需忽略任务模板参数与底层数据的绑定。

【技术特征摘要】

1.一种基于spark引擎的离线计算优化方案,其特征在于,包括,

2.根据权利要求1所述的基于spark引擎的离线计算优化方案,其特征在于,所述任务模板由固定的计算逻辑代码部分和变化的参数部分组成。

3.根据权利要求2所述的基于spark引擎的离线计算优化方案,其特征在于,所述固定的计算逻辑代码部分,需要计算引擎进行解析计算;所述变化的...

【专利技术属性】
技术研发人员:高海玲高经郡李栋
申请(专利权)人:北京科杰科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1