一种基于DAP平台的大数据处理方法及系统技术方案

技术编号:31499799 阅读:18 留言:0更新日期:2021-12-22 23:08
本发明专利技术公开一种基于DAP平台的大数据处理方法,包括以下步骤,对系统进行大数据处理配置;进行可视化作业建模,保存并输出大数据作业任务;对大数据作业任务进行作业调度管理并监控;将大数据作业任务发送到SPARK集群;进行作业解析与执行,并获取作业的状态和日志。本发明专利技术还提供一种基于DAP平台的大数据处理系统,不仅支持更多样的数据资源间的输入输出与转换,而且支持大批量并发大数据量的数据转换任务,有效地节省了中心服务器的资源,提高了大数据ETL作业的执行效率,减少了数据整合的时间,实现了各个异构的数据源之间及时有效的整合。整合。整合。

【技术实现步骤摘要】
一种基于DAP平台的大数据处理方法及系统


[0001]本专利技术涉及数据处理
,尤其涉及基于DAP平台的大数据处理方法及系统。

技术介绍

[0002]由于城市各部门系统具有不同的业务模式,并且早期的部门信息系统的建设并没有采用整体统一的设计,导致各部门存储的业务数据类型具有较大差异,各部门之间的信息交互存在困难,城市整体信息数据存在冗余并且数据利用率较低的问题。
[0003]为了有效地整合异构的各部门数据资源,打破部门壁垒,连接信息孤岛,实现城市各部门系统之间数据的共享交换,使用ETL(Extract-Transform-Load)工具编排数据处理任务。通常情况下ETL任务不依附于大数据处理平台,当整合数据量较大时,ETL任务运行时间长,并且存在大批量并发任务时,任务执行缓慢,数据无法得到及时有效的处理。
[0004]目前行业常用的数据转换大多是基于开源kettle来开发,基于Kettle的数据引擎可以提供可视化编排数据处理流程,能打通多样数据源,具有丰富的数据加工处理能力,但是kettle在大数据、分布式计算方面不够灵活,集群式作业编排技术门槛高,有些数据加工组件不支持集群式;大数据组件的使用前提是大数据平台上的计算代码需要人工预先编写编译,难度大,工作量大;同时,基于kettle的数据处理对运行任务的中心服务器资源要求很高,当并发任务比较多的时候容易遇到较大瓶颈,导致数据无法得到有效处理。

技术实现思路

[0005]为了解决上述技术问题,本专利技术提供一种基于DAP平台的大数据处理方法及系统,支持大批量并发大数据量的数据转换任务,能够以保证数据得到及时有效的处理。
[0006]为达到上述目的,本专利技术提供的基于DAP平台的大数据处理方法,包括以下步骤:
[0007]对系统进行大数据处理配置;
[0008]编排并输出大数据作业任务;
[0009]对大数据作业任务进行作业调度管理并监控;
[0010]将大数据作业任务发送到SPARK集群;
[0011]进行作业解析与执行,并获取作业的状态和日志。
[0012]进一步地,对系统进行大数据处理配置的步骤,包括,任务提交管理配置、大数据平台配置、大数据作业选择,以及大数据执行参数配置,其中,
[0013]任务提交管理配置,设置任务提交方式为通过Livy提交任务,配置DAP主机地址、主机端口、用户名及密码;
[0014]大数据平台配置,包括,Hadoop分布式文件系统属性配置、zookeeper属性配置、dapmanager地址配置、ranger地址配置。所述Hadoop分布式文件系统属性配置,包括服务名称、节点列表、代理配置、主从节点端口与端口;
[0015]大数据执行参数配置,包括,执行参数、资源接口、变量设置。
[0016]进一步地,进行编排并输出大数据作业任务的步骤,包括,基于Apache Beam SDK
设计,进行可视化作业建模,利用拖拽的方式实现组件编排大数据作业任务。
[0017]进一步地,对大数据作业任务进行作业调度管理并监控的步骤,包括,
[0018]创建并提交Batch作业请求,对大数据ETL作业任务进行作业调度管理和监控作业的执行情况,更新作业状态。
[0019]更进一步地,进行作业解析与执行,并获取作业的状态和日志的步骤,包括,
[0020]通过作业维护模块监控大数据ETL作业任务的状态、查询大数据ETL作业任务的状态;作业调度与监控模块根据Livy服务模块返回的结果更新作业状态;
[0021]作业调度与监控模块发送大数据作业日志查询请求到Livy服务模块,并大数据作业提取日志;通过作业维护模块查看大数据作业日志;
[0022]将大数据作业日志放在大数据Hadoop节点服务器。
[0023]为达到上述目的,本专利技术还提供一种基于DAP平台的大数据处理系统,包括,大数据处理配置模块、作业编排模块、作业维护模块、作业调度与监控模块、Livy服务模块,以及SPARK集群,其中,
[0024]大数据处理配置模块,其对系统进行大数据处理配置;
[0025]作业编排模块,其创建大数据作业任务,编辑后保存并输出;
[0026]作业维护模块,其执行大数据作业任务,监控和查询大数据作业任务状态;提供大数据作业任务执行日志的查看;
[0027]作业调度与监控模块,其对大数据作业任务进行作业调度管理并监控作业的执行情况;
[0028]Livy服务模块,其将大数据作业任务发送到所述SPARK集群;
[0029]SPARK集群,其对大数据作业任务并进行解析,以yarn模式执行作业任务。
[0030]进一步地,大数据处理配置模块,其对任务提交管理配置、大数据平台配置、大数据作业选择,以及大数据执行参数配置,其中,
[0031]任务提交管理配置,设置任务提交方式为通过Livy提交任务,配置DAP主机地址、主机端口、用户名及密码;
[0032]大数据平台配置,包括,Hadoop分布式文件系统属性配置、zookeeper属性配置、dapmanager地址配置、ranger地址配置。Hadoop分布式文件系统属性配置,包括服务名称、节点列表、代理配置、主从节点端口与端口;
[0033]大数据执行参数配置,包括,执行参数、资源接口、变量设置。
[0034]进一步地,作业编排模块,其基于Apache Beam SDK设计,进行可视化作业建模,利用拖拽的方式实现组件编排大数据作业任务。
[0035]进一步地,作业维护模块,其通过人工、时间驱动、数据驱动或消息驱动的方式执行大数据任务;向Livy服务模块发送作业执行rest请求,创建批量会话;监控和查询大数据作业任务状态;提供大数据作业任务执行日志的查看。
[0036]进一步地,作业调度与监控模块,其通过Livy服务模块提交创建Batch作业请求;定期发送批量会话作业状态查询请求到Livy服务模块,并根据Livy服务模块返回的结果更新作业状态;发送大数据作业日志查询请求到Livy服务模块,根据对应的申请号提取日志。
[0037]更进一步地,Livy服务模块,其接收作业调度与监控模块的请求,将大数据作业任务的状态返回给作业调度与监控模块;接收作业调度与监控模块发送的大数据作业日志查
询请求并响应。
[0038]为达到上述目的,本专利技术还提供一种电子设备,包括,处理器;以及
[0039]被安排成存储计算机可执行指令的存储器,可执行指令在被执行时使处理器执行上述基于DAP平台的大数据处理方法的步骤。
[0040]为达到上述目的,本专利技术还提供一种计算机可读存储介质,计算机可读存储介质存储一个或多个程序,一个或多个程序当被包括多个应用程序的电子设备执行时,使得电子设备执行上述基于基于DAP平台的大数据处理方法的步骤。
[0041]本专利技术的基于DAP平台的大数据处理本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于DAP平台的大数据处理方法,包括以下步骤,对系统进行大数据处理配置;编排并输出大数据作业任务;对大数据作业任务进行作业调度管理并监控;将大数据作业任务发送到SPARK集群;进行作业解析与执行,并获取作业的状态和日志。2.根据权利要求1所述的基于DAP平台的大数据处理方法,其特征在于,所述对系统进行大数据处理配置的步骤,包括,任务提交管理配置、大数据平台配置、大数据作业选择,以及大数据执行参数配置,其中,所述任务提交管理配置,设置任务提交方式为通过Livy提交任务,配置DAP主机地址、主机端口、用户名及密码;所述大数据平台配置,包括,Hadoop分布式文件系统属性配置、zookeeper属性配置、dapmanager地址配置、ranger地址配置,所述Hadoop分布式文件系统属性配置,包括服务名称、节点列表、代理配置、主从节点端口与端口;所述大数据执行参数配置,包括,执行参数、资源接口、变量。3.根据权利要求1所述的基于DAP平台的大数据处理方法,其特征在于,所述编排并输出大数据作业任务为通过可视化作业建模,保存并输出大数据作业任务的步骤,包括,基于Apache Beam SDK设计,进行可视化作业建模,利用拖拽的方式实现组件编排大数据作业任务。4.根据权利要求1所述的基于DAP平台的大数据处理方法,其特征在于,所述对大数据作业任务进行作业调度管理并监控的步骤,包括,创建并提交批量会话作业请求,对大数据ETL作业任务进行作业调度管理和监控作业的执行情况,更新作业状态。5.根据权利要求1所述的基于DAP平台的大数据处理方法,其特征在于,所述进行作业解析与执行,并获取作业的状态和日志的步骤,包括,通过作业维护模块监控大数据ETL作业任务的状态、查询大数据ETL作业任务的状态;作业调度与监控模块根据Livy服务模块返回的结果更新作业状态;作业调度与监控模块发送大数据作业日志查询请求到Livy服务模块,并大数据作业提取日志;通过作业维护模块查看大数据作业日志;将所述大数据作业日志放在大数据Hadoop节点服务器。6.一种基于DAP平台的大数据处理系统,其特征在于,包括,大数据处理配置模块、作业编排模块、作业维护模块、作业调度与监控模块、Livy服务模块,以及SPARK集群,其中,所述大数据处理配置模块,其对系统进行大数据处理配置;所述作业编排模块,其创建大数据作业任务,编辑后保存并输出;所述作业维护模块,其执行大数据作业任务,监控和查询大数据作业任务状态;提供大数据作业任务执行日志的查看;所述作业调度与监控模块,其对大数据作业任务进行作业调度管理并...

【专利技术属性】
技术研发人员:朱添麟黄家时
申请(专利权)人:中兴通讯股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1