一种大数据处理方法和装置制造方法及图纸

技术编号:26504869 阅读:16 留言:0更新日期:2020-11-27 15:32
本发明专利技术公开了一种大数据处理方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:与计算引擎建立会话长连接;接收作业调度集群发送的SQL脚本;将所述SQL脚本提交至所述计算引擎,以使所述计算引擎根据所述SQL脚本进行大数据处理。该实施方式能够解决作业执行效率低的技术问题。

【技术实现步骤摘要】
一种大数据处理方法和装置
本专利技术涉及计算机
,尤其涉及一种大数据处理方法和装置。
技术介绍
目前数据仓库的大数据处理,主要基于关系型数据库(如Oracle),或者并行计算数据库集群(如Teradata、GreenPlum)进行处理。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:现有基于关系型数据库、并行计算数据库的大数据处理,存在作业并发数不够、源数据存储容量有限、数据冗余度较高等不足,从而导致作业执行效率低。
技术实现思路
有鉴于此,本专利技术实施例提供一种大数据处理方法和装置,以解决作业执行效率低的技术问题。为实现上述目的,根据本专利技术实施例的一个方面,提供了一种大数据处理方法,包括:与计算引擎建立会话长连接;接收作业调度集群发送的SQL脚本;将所述SQL脚本提交至所述计算引擎,以使所述计算引擎根据所述SQL脚本进行大数据处理。可选地,与计算引擎建立会话长连接,包括:与Hadoop集群中的计算引擎建立会话长连接;其中,所述Hadoop集群包括计算引擎和Hadoop资源管理器。可选地,所述计算引擎为Spark分布式集群,所述Hadoop资源管理器为YARN。可选地,与Hadoop集群中的计算引擎建立会话长连接,包括:启动程序加载配置文件,初始化SparkSession,以与所述Spark分布式集群建立SparkSession;登录所述Spark分布式集群。>可选地,登录所述Spark分布式集群,包括:调用Sparkjava客户端,调用登录接口,获取SparkSession,返回服务器初始化Yarn_ApplicationId。可选地,将所述SQL脚本提交至所述计算引擎,包括:将所述SQL脚本提交至所述计算引擎,以使所述计算引擎注册临时表;接收所述计算引擎返回的所述临时表的表名,将所述临时表的表名缓存到httpSession中。可选地,将所述SQL脚本提交至所述计算引擎之后,还包括:接收所述计算引擎返回的已注销的临时表的表名;清理httpSession中的临时表的表名。可选地,接收作业调度集群发送的SQL脚本,包括:接收作业调度集群发送的SQL脚本,将所述放入spark-submit长连接池的队列。可选地,所述作业调度集群发送的SQL脚本采用如下方法得到:将作业配置信息写入数据加工作业模板;根据所述作用配置信息生成SQL脚本。可选地,所述作业配置信息包括加工作业流基础信息、作业基本信息和参数基本信息。可选地,所述加工作业流基础信息包括作业流组名、机构号、作业流启动方式、源应用、目标应用和应用模式名。可选地,所述作业基本信息包括作业名、程序名、作业处理参数数组、作业类型和作业执行计划。可选地,所述参数基本信息包括作业名、作业参数名、参数描述、参数关联的应用名。可选地,所述计算引擎根据所述SQL脚本进行大数据处理,包括:所述计算引擎对基于Hive构建的数据仓库的数据进行处理,将对数据的处理操作,转化为Hadoop体系的Hive和Spark的处理操作。可选地,所述计算引擎根据所述SQL脚本进行大数据处理,还包括:使用python脚本语言将SQL处理逻辑封装成批处理脚本,用来处理更新、删除的操作,最终将数据存储落地在Hive数据仓库中。可选地,所述方法应用于由部署有SparkWeb组件的服务器组成的集群。另外,根据本专利技术实施例的另一个方面,提供了一种大数据处理装置,包括:连接模块,用于与计算引擎建立会话长连接;接收模块,用于接收作业调度集群发送的SQL脚本;提交模块,用于将所述SQL脚本提交至所述计算引擎,以使所述计算引擎根据所述SQL脚本进行大数据处理。可选地,所述连接模块还用于:与Hadoop集群中的计算引擎建立会话长连接;其中,所述Hadoop集群包括计算引擎和Hadoop资源管理器。可选地,所述计算引擎为Spark分布式集群,所述Hadoop资源管理器为YARN。可选地,所述连接模块还用于:启动程序加载配置文件,初始化SparkSession,以与所述Spark分布式集群建立SparkSession;登录所述Spark分布式集群。可选地,所述连接模块还用于:调用Sparkjava客户端,调用登录接口,获取SparkSession,返回服务器初始化Yarn_ApplicationId。可选地,所述提交模块还用于:将所述SQL脚本提交至所述计算引擎,以使所述计算引擎注册临时表;接收所述计算引擎返回的所述临时表的表名,将所述临时表的表名缓存到httpSession中。可选地,所述提交模块还用于:将所述SQL脚本提交至所述计算引擎之后,接收所述计算引擎返回的已注销的临时表的表名;清理httpSession中的临时表的表名。可选地,所述接收模块还用于:接收作业调度集群发送的SQL脚本,将所述放入spark-submit长连接池的队列。可选地,所述作业调度集群发送的SQL脚本采用如下方法得到:将作业配置信息写入数据加工作业模板;根据所述作用配置信息生成SQL脚本。可选地,所述作业配置信息包括加工作业流基础信息、作业基本信息和参数基本信息。可选地,所述加工作业流基础信息包括作业流组名、机构号、作业流启动方式、源应用、目标应用和应用模式名。可选地,所述作业基本信息包括作业名、程序名、作业处理参数数组、作业类型和作业执行计划。可选地,所述参数基本信息包括作业名、作业参数名、参数描述、参数关联的应用名。可选地,所述计算引擎根据所述SQL脚本进行大数据处理,包括:所述计算引擎对基于Hive构建的数据仓库的数据进行处理,将对数据的处理操作,转化为Hadoop体系的Hive和Spark的处理操作。可选地,所述计算引擎根据所述SQL脚本进行大数据处理,还包括:使用python脚本语言将SQL处理逻辑封装成批处理脚本,用来处理更新、删除的操作,最终将数据存储落地在Hive数据仓库中。可选地,所述方法应用于由部署有SparkWeb组件的服务器组成的集群。根据本专利技术实施例的另一个方面,还提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,所述一个或多个处理器实现上述任一实施例所述的方法。根据本专利技术实施例的另一个方面,还提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一实施例所述的方法。上述专利技术中的一个实施例具有如下优点或有益效果:因为采用与计算引擎建立会话长连接,接本文档来自技高网...

【技术保护点】
1.一种大数据处理方法,其特征在于,包括:/n与计算引擎建立会话长连接;/n接收作业调度集群发送的SQL脚本;/n将所述SQL脚本提交至所述计算引擎,以使所述计算引擎根据所述SQL脚本进行大数据处理。/n

【技术特征摘要】
1.一种大数据处理方法,其特征在于,包括:
与计算引擎建立会话长连接;
接收作业调度集群发送的SQL脚本;
将所述SQL脚本提交至所述计算引擎,以使所述计算引擎根据所述SQL脚本进行大数据处理。


2.根据权利要求1所述的方法,其特征在于,与计算引擎建立会话长连接,包括:
与Hadoop集群中的计算引擎建立会话长连接;
其中,所述Hadoop集群包括计算引擎和Hadoop资源管理器。


3.根据权利要求2所述的方法,其特征在于,所述计算引擎为Spark分布式集群,所述Hadoop资源管理器为YARN。


4.根据权利要求3所述的方法,其特征在于,与Hadoop集群中的计算引擎建立会话长连接,包括:
启动程序加载配置文件,初始化SparkSession,以与所述Spark分布式集群建立SparkSession;
登录所述Spark分布式集群。


5.根据权利要求1所述的方法,其特征在于,登录所述Spark分布式集群,包括:
调用Sparkjava客户端,调用登录接口,获取SparkSession,返回服务器初始化Yarn_ApplicationId。


6.根据权利要求1所述的方法,其特征在于,将所述SQL脚本提交至所述计算引擎,包括:
将所述SQL脚本提交至所述计算引擎,以使所述计算引擎注册临时表;
接收所述计算引擎返回的所述临时表的表名,将所述临时表的表名缓存到httpSession中。


7.根据权利要求6所述的方法,其特征在于,还包括:
接收所述计算引擎返回的已注销的临时表的表名;
清理httpSession中的临时表的表名。


8.根据权利要求1所述的方法,其特征在于,接收作业调度集群发送的SQL脚本,包括:
接收作业调度集群发送的SQL脚本,将所述放入spark-submit长连接池的队列。


9.根据权利要求1所述的方法,其特征在于,所述作业调度集群发送的SQL脚本采用如下方法得到:
将作业配置信息写入数据加工作业模板;
根据所述作用配置信息生成SQL脚本。


10.根据权利要求9所述的方法,其特征在于,所述作业配置信息包括加工作业流基础信息、作业基本信息和参数基本信息。


11.根据权利要求10所述的方法,其特征在于,所述加工作业流基础信息包括作业流组名、机构号、作业流启动方式、源应用、目标应用和应用模式名。


12.根据权利要求...

【专利技术属性】
技术研发人员:洪毅清吕文栋钟文杰蔡淑莲
申请(专利权)人:中国建设银行股份有限公司建信金融科技有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1