【技术实现步骤摘要】
基于SparkSQL的批量作业处理方法、装置、电子设备及介质
[0001]本公开涉及大数据
,具体涉及一种基于SparkSQL的批量作业处理方法、装置、电子设备、介质和程序产品。
技术介绍
[0002]大数据的庞大性通常意味着,解决方案必须使用长时间运行的批处理作业来处理数据文件,以便筛选、聚合和准备用于分析的数据。
[0003]在实现本公开的专利技术构思时,专利技术人发现:目前在编写Spark大数据加工批量作业,需要通过编程语言,如Java、Python等,按作业逻辑组织程序代码,通过调用Spark框架API完成数据加工处理。
[0004]然而,编写Spark批量作业需要熟悉对应编程语言及Spark框架API,学习门槛高,目程序打包后逻辑固化缺少快速调整能力,不易于生产环境应急。
技术实现思路
[0005]鉴于上述问题,本公开提供了一种基于SparkSQL的批量作业处理方法、装置、电子设备、介质和程序产品。
[0006]根据本公开的第一个方面,提供了一种基于SparkSQL的批 ...
【技术保护点】
【技术特征摘要】
1.一种基于SparkSQL的批量作业处理方法,应用于包含Spark分布式处理系统的服务器,所述方法包括:获取待处理的批量作业,所述批量作业包括多个子作业;为每个所述子作业配置一个SparkSQL语句,所述SparkSQL语句包含执行顺序,以每个所述SQL语句作为一个脚本单元;将多个所述脚本单元按照所述执行顺序进行排序,形成索引表;响应于所述批量作业的处理请求,读取所述索引表,根据所述索引表依次加载多个所述脚本单元,其中,在加载每个脚本单元时,检查该脚本单元是否配置有热替换脚本单元,在确定该脚本单元配置有热替换脚本单元时,将该脚本单元替换为所述热替换脚本单元;以及在多个所述脚本单元的任一脚本单元加载完成时,按照索引表执行该脚本单元对应的一个子作业,直至所述批量作业执行完成。2.根据权利要求1所述的方法,其中,所述SparkSQL语句包含多个变量;所述为每个所述子作业配置一个SparkSQL语句还包括:将所述多个变量中的每个变量,以特定占位符和变量名的形式进行区分。3.根据权利要求1所述的方法,其中,所述索引表配置有每个脚本单元的执行顺序、类型信息、位置信息和描述信息;所述索引表存储于所述服务器中的文件或者数据库。4.根据权利要求1所述的方法,其中,所述热替换脚本单元存储于所述服务器中的Hive表、配置中心、数据库或者Key
‑
Value库。5.根据权利要求2所述的方法,其中,所述Spark分布式处理系统封装有Spark框架的应用程序编程接口;所述获取待处理的批量作业之后,还包括针对所述批量作业中的每个子作业,执行以下操作:在Spark分布式处理系统,接收作业启动参数;创建作业上下文,并将所述作业启动参数放入所述作业上下文,其中,所述作业上下文表征了该子作业运行过程中信息与变量的存储环境;创建作业会话,并绑定作业信息与所述作业上下文,其中,所...
【专利技术属性】
技术研发人员:童俊,董军伟,何文清,赵傲,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。