基于SparkSQL的批量作业处理方法、装置、电子设备及介质制造方法及图纸

技术编号:38909081 阅读:28 留言:0更新日期:2023-09-25 09:27
本公开提供了一种基于SparkSQL的批量作业处理方法、装置、电子设备及介质,涉及大数据技术领域。该方法应用于包含Spark分布式处理系统的服务器,方法包括:获取待处理的批量作业,批量作业包括多个子作业;为每个子作业配置一个SparkSQL语句,以每个SQL语句作为一个脚本单元;将多个脚本单元按照执行顺序进行排序,形成索引表;响应于批量作业的处理请求,读取索引表,根据索引表依次加载多个脚本单元,在加载每个脚本单元时,检查该脚本单元是否配置有热替换脚本单元,在确定该脚本单元配置有热替换脚本单元时,将该脚本单元替换为热替换脚本单元;在多个脚本单元的任一脚本单元加载完成时,按照索引表执行该脚本单元对应的一个子作业,直至批量作业执行完成。直至批量作业执行完成。直至批量作业执行完成。

【技术实现步骤摘要】
基于SparkSQL的批量作业处理方法、装置、电子设备及介质


[0001]本公开涉及大数据
,具体涉及一种基于SparkSQL的批量作业处理方法、装置、电子设备、介质和程序产品。

技术介绍

[0002]大数据的庞大性通常意味着,解决方案必须使用长时间运行的批处理作业来处理数据文件,以便筛选、聚合和准备用于分析的数据。
[0003]在实现本公开的专利技术构思时,专利技术人发现:目前在编写Spark大数据加工批量作业,需要通过编程语言,如Java、Python等,按作业逻辑组织程序代码,通过调用Spark框架API完成数据加工处理。
[0004]然而,编写Spark批量作业需要熟悉对应编程语言及Spark框架API,学习门槛高,目程序打包后逻辑固化缺少快速调整能力,不易于生产环境应急。

技术实现思路

[0005]鉴于上述问题,本公开提供了一种基于SparkSQL的批量作业处理方法、装置、电子设备、介质和程序产品。
[0006]根据本公开的第一个方面,提供了一种基于SparkSQL的批量作业处理方法,应用本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于SparkSQL的批量作业处理方法,应用于包含Spark分布式处理系统的服务器,所述方法包括:获取待处理的批量作业,所述批量作业包括多个子作业;为每个所述子作业配置一个SparkSQL语句,所述SparkSQL语句包含执行顺序,以每个所述SQL语句作为一个脚本单元;将多个所述脚本单元按照所述执行顺序进行排序,形成索引表;响应于所述批量作业的处理请求,读取所述索引表,根据所述索引表依次加载多个所述脚本单元,其中,在加载每个脚本单元时,检查该脚本单元是否配置有热替换脚本单元,在确定该脚本单元配置有热替换脚本单元时,将该脚本单元替换为所述热替换脚本单元;以及在多个所述脚本单元的任一脚本单元加载完成时,按照索引表执行该脚本单元对应的一个子作业,直至所述批量作业执行完成。2.根据权利要求1所述的方法,其中,所述SparkSQL语句包含多个变量;所述为每个所述子作业配置一个SparkSQL语句还包括:将所述多个变量中的每个变量,以特定占位符和变量名的形式进行区分。3.根据权利要求1所述的方法,其中,所述索引表配置有每个脚本单元的执行顺序、类型信息、位置信息和描述信息;所述索引表存储于所述服务器中的文件或者数据库。4.根据权利要求1所述的方法,其中,所述热替换脚本单元存储于所述服务器中的Hive表、配置中心、数据库或者Key

Value库。5.根据权利要求2所述的方法,其中,所述Spark分布式处理系统封装有Spark框架的应用程序编程接口;所述获取待处理的批量作业之后,还包括针对所述批量作业中的每个子作业,执行以下操作:在Spark分布式处理系统,接收作业启动参数;创建作业上下文,并将所述作业启动参数放入所述作业上下文,其中,所述作业上下文表征了该子作业运行过程中信息与变量的存储环境;创建作业会话,并绑定作业信息与所述作业上下文,其中,所...

【专利技术属性】
技术研发人员:童俊董军伟何文清赵傲
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1