基于SparkSQL的批量作业处理方法、装置、电子设备及介质制造方法及图纸

技术编号：38909081 阅读：28 留言：0更新日期：2023-09-25 09:27

本公开提供了一种基于SparkSQL的批量作业处理方法、装置、电子设备及介质，涉及大数据技术领域。该方法应用于包含Spark分布式处理系统的服务器，方法包括：获取待处理的批量作业，批量作业包括多个子作业；为每个子作业配置一个SparkSQL语句，以每个SQL语句作为一个脚本单元；将多个脚本单元按照执行顺序进行排序，形成索引表；响应于批量作业的处理请求，读取索引表，根据索引表依次加载多个脚本单元，在加载每个脚本单元时，检查该脚本单元是否配置有热替换脚本单元，在确定该脚本单元配置有热替换脚本单元时，将该脚本单元替换为热替换脚本单元；在多个脚本单元的任一脚本单元加载完成时，按照索引表执行该脚本单元对应的一个子作业，直至批量作业执行完成。直至批量作业执行完成。直至批量作业执行完成。

全部详细技术资料下载

【技术实现步骤摘要】
基于SparkSQL的批量作业处理方法、装置、电子设备及介质

[0001]本公开涉及大数据
，具体涉及一种基于SparkSQL的批量作业处理方法、装置、电子设备、介质和程序产品。

技术介绍

[0002]大数据的庞大性通常意味着，解决方案必须使用长时间运行的批处理作业来处理数据文件，以便筛选、聚合和准备用于分析的数据。
[0003]在实现本公开的专利技术构思时，专利技术人发现：目前在编写Spark大数据加工批量作业，需要通过编程语言，如Java、Python等，按作业逻辑组织程序代码，通过调用Spark框架API完成数据加工处理。
[0004]然而，编写Spark批量作业需要熟悉对应编程语言及Spark框架API，学习门槛高，目程序打包后逻辑固化缺少快速调整能力，不易于生产环境应急。

技术实现思路

[0005]鉴于上述问题，本公开提供了一种基于SparkSQL的批量作业处理方法、装置、电子设备、介质和程序产品。
[0006]根据本公开的第一个方面，提供了一种基于SparkSQL的批...

【技术保护点】

【技术特征摘要】
1.一种基于SparkSQL的批量作业处理方法，应用于包含Spark分布式处理系统的服务器，所述方法包括：获取待处理的批量作业，所述批量作业包括多个子作业；为每个所述子作业配置一个SparkSQL语句，所述SparkSQL语句包含执行顺序，以每个所述SQL语句作为一个脚本单元；将多个所述脚本单元按照所述执行顺序进行排序，形成索引表；响应于所述批量作业的处理请求，读取所述索引表，根据所述索引表依次加载多个所述脚本单元，其中，在加载每个脚本单元时，检查该脚本单元是否配置有热替换脚本单元，在确定该脚本单元配置有热替换脚本单元时，将该脚本单元替换为所述热替换脚本单元；以及在多个所述脚本单元的任一脚本单元加载完成时，按照索引表执行该脚本单元对应的一个子作业，直至所述批量作业执行完成。2.根据权利要求1所述的方法，其中，所述SparkSQL语句包含多个变量；所述为每个所述子作业配置一个SparkSQL语句还包括：将所述多个变量中的每个变量，以特定占位符和变量名的形式进行区分。3.根据权利要求1所述的方法，其中，所述索引表配置有每个脚本单元的执行顺序、类型信息、位置信息和描述信息；所述索引表存储于所述服务器中的文件或者数据库。4.根据权利要求1所述的方法，其中，所述热替换脚本单元存储于所述服务器中的Hive表、配置中心、数据库或者Key
‑
Value库。5.根据权利要求2所述的方法，其中，所述Spark分布式处理系统封装有Spark框架的应用程序编程接口；所述获取待处理的批量作业之后，还包括针对所述批量作业中的每个子作业，执行以下操作：在Spark分布式处理系统，接收作业启动参数；创建作业上下文，并将所述作业启动参数放入所述作业上下文，其中，所述作业上下文表征了该子作业运行过程中信息与变量的存储环境；创建作业会话，并绑定作业信息与所述作业上下文，其中，所...

【专利技术属性】
技术研发人员：童俊，董军伟，何文清，赵傲，
申请(专利权)人：中国工商银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人