Flume任务调度配置方法、装置、设备及存储介质制造方法及图纸

技术编号:30964202 阅读:17 留言:0更新日期:2021-11-25 20:30
本发明专利技术公开了一种Flume任务调度配置方法、装置、设备及存储介质,该方法包括:在DolphinScheduler的数据源中增加Flume数据源,使得DolphinScheduler能够在Flume数据源对应主机上运行Flume任务;在DolphinScheduler中配置Flume节点,使得DolphinScheduler能够利用Flume节点运行Flume任务;在DolphinScheduler中定义流式任务的调度方式,使得Flume任务按照调度方式以流式任务的方式运行。可见,本申请对Flume Agent的管控繁琐程度大大降低,进而有效降低运维成本。运维成本。运维成本。

【技术实现步骤摘要】
Flume任务调度配置方法、装置、设备及存储介质


[0001]本专利技术涉及Flume
,更具体地说,涉及一种Flume任务调度配置方法、装置、设备及存储介质。

技术介绍

[0002]在大数据时代,Flume作为一个优秀的数据采集工具应用于多个场景。如附图1所示,为Flume采集数据的架构,Agent构建一个基本数据采集单位,一个Agent包含Source、Sink与Channel。Source可以从日志文件、网络端口、Kafka等多种数据源采集数据,将采集的数据封装成Event,Event可以通过一系列拦截器进行加工处理后写入Channel,数据成功写入到Channel中后,Sink会从Channel中主动拉取数据写入到HDFS、HBase、Hive、ES等多种大数据组件中。然后在实际场景中通常需要采集的日志等会存在于多个主机中,Flume的Agent也会散落在多个主机部署运行,启停Agent、监控Agent的状态、查看Agent的日志也都需要登录到对应的主机,并且在启动时,需要人工管理好各个Agent的启动顺序;如果主机过多,对Flume Agent的管控将会十分繁琐,进而产生较大的运维成本。

技术实现思路

[0003]本专利技术的目的是提供一种Flume任务调度配置方法、装置、设备及存储介质,对Flume Agent的管控繁琐程度大大降低,进而有效降低运维成本。
[0004]为了实现上述目的,本专利技术提供如下技术方案:
[0005]一种Flume任务调度配置方法,包括:<br/>[0006]在DolphinScheduler的数据源中增加Flume数据源,使得所述DolphinScheduler能够在所述Flume数据源对应主机上运行Flume任务;
[0007]在所述DolphinScheduler中配置Flume节点,使得所述DolphinScheduler能够利用所述Flume节点运行Flume任务;
[0008]在所述DolphinScheduler中定义流式任务的调度方式,使得所述Flume任务按照所述调度方式以流式任务的方式运行。
[0009]优选的,在DolphinScheduler的数据源中增加Flume数据源之后,还包括:
[0010]按照所述Flume数据源中配置的主机信息连接相应的主机,并按照所述Flume数据源中配置的安装路径访问所连接主机中的安装文件,如果所述安装文件为Flume的安装文件,则确定所述Flume数据源的配置是正确的,否则,确定所述Flume数据源的配置是错误的。
[0011]优选的,在所述DolphinScheduler中配置Flume节点,包括:
[0012]在所述DolphinScheduler中增加Flume类型的工作流,所述工作流包括Flume节点及各Flume节点之间的操作顺序;
[0013]对所述工作流中Flume节点的Source、Sink与Channel分别进行配置。
[0014]优选的,在所述DolphinScheduler中定义流式任务的调度方式,包括:
[0015]解析所述工作流,确定解析所得工作流中第一个Flume节点为当前节点,并为当前节点需执行的Flume任务下发值为0的进程PID;
[0016]到所述Flume数据源对应主机上启动当前节点对应的Flume Agent,如果启动成功,则更新对应Flume Agent执行的Flume任务的进程PID为运行进程PID,将启动成功的状态及相应进程PID存入数据库,判断是否有当前节点之后的Flume节点,在判断结果为是时确定当前节点之后的Flume节点为当前节点,执行为当前节点需执行的Flume任务下发值为0的进程PID的步骤,在判断结果为否时确定启动完成;如果启动失败,则将启动的状态设置为启动失败。
[0017]优选的,在所述DolphinScheduler中定义流式任务的调度方式,包括:
[0018]解析所述工作流,确定解析所得工作流中第一个Flume节点为当前节点,并为当前节点需执行的Flume任务下发值为0的进程PID;
[0019]到所述Flume数据源对应主机上停止当前节点对应的Flume Agent,如果停止成功,则将对应Flume Agent执行的Flume任务停止成功的状态及相应进程PID存入所述数据库,判断是否有当前节点之后的Flume节点,在判断结果为是时确定当前节点之后的Flume节点为当前节点,执行为当前节点需执行的Flume任务下发值为0的进程PID的步骤,在判断结果为否时确定停止完成;如果停止失败,则将停止的状态设置为停止失败。
[0020]优选的,还包括:
[0021]如果启动的状态为启动失败,则获取到启动失败的Flume节点,并将该启动失败的节点作为当前节点,执行为当前节点需执行的Flume任务下发值为0的进程PID的步骤;
[0022]如果停止的状态为停止失败,则获取到停止失败的Flume节点,并将该停止失败的节点作为当前节点,执行为当前节点需执行的Flume任务下发值为0的进程PID的步骤。
[0023]优选的,在所述DolphinScheduler中配置Flume节点,包括:
[0024]在所述DolphinScheduler提供的前端界面配置Flume节点。
[0025]一种Flume任务调度配置装置,包括:
[0026]数据源配置模块,用于:在DolphinScheduler的数据源中增加Flume数据源,使得所述DolphinScheduler能够在所述Flume数据源对应主机上运行Flume任务;
[0027]节点配置模块,用于:在所述DolphinScheduler中配置Flume节点,使得所述DolphinScheduler能够利用所述Flume节点运行Flume任务;
[0028]调度定义模块,用于:在所述DolphinScheduler中定义流式任务的调度方式,使得Flume任务按照所述调度方式以流式任务的方式运行。
[0029]一种Flume任务调度配置设备,包括:
[0030]存储器,用于存储计算机程序;
[0031]处理器,用于执行所述计算机程序时实现如上任一项所述Flume任务调度配置方法的步骤。
[0032]一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述Flume任务调度配置方法的步骤。
[0033]本专利技术提供了一种Flume任务调度配置方法、装置、设备及存储介质,该方法包括:在DolphinScheduler的数据源中增加Flume数据源,使得所述DolphinScheduler能够在所述Flume数据源对应主机上运行Flume任务;在所述DolphinScheduler中配置Flume节点,使
得所述DolphinScheduler能够利用所述Flum本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种Flume任务调度配置方法,其特征在于,包括:在DolphinScheduler的数据源中增加Flume数据源,使得所述DolphinScheduler能够在所述Flume数据源对应主机上运行Flume任务;在所述DolphinScheduler中配置Flume节点,使得所述DolphinScheduler能够利用所述Flume节点运行Flume任务;在所述DolphinScheduler中定义流式任务的调度方式,使得所述Flume任务按照所述调度方式以流式任务的方式运行。2.根据权利要求1所述的方法,其特征在于,在DolphinScheduler的数据源中增加Flume数据源之后,还包括:按照所述Flume数据源中配置的主机信息连接相应的主机,并按照所述Flume数据源中配置的安装路径访问所连接主机中的安装文件,如果所述安装文件为Flume的安装文件,则确定所述Flume数据源的配置是正确的,否则,确定所述Flume数据源的配置是错误的。3.根据权利要求2所述的方法,其特征在于,在所述DolphinScheduler中配置Flume节点,包括:在所述DolphinScheduler中增加Flume类型的工作流,所述工作流包括Flume节点及各Flume节点之间的操作顺序;对所述工作流中Flume节点的Source、Sink与Channel分别进行配置。4.根据权利要求3所述的方法,其特征在于,在所述DolphinScheduler中定义流式任务的调度方式,包括:解析所述工作流,确定解析所得工作流中第一个Flume节点为当前节点,并为当前节点需执行的Flume任务下发值为0的进程PID;到所述Flume数据源对应主机上启动当前节点对应的Flume Agent,如果启动成功,则更新对应Flume Agent执行的Flume任务的进程PID为运行进程PID,将启动成功的状态及相应进程PID存入数据库,判断是否有当前节点之后的Flume节点,在判断结果为是时确定当前节点之后的Flume节点为当前节点,执行为当前节点需执行的Flume任务下发值为0的进程PID的步骤,在判断结果为否时确定启动完成;如果启动失败,则将启动的状态设置为启动失败。5.根据权利要求4所述的方法,其特征在于,在所述DolphinScheduler中定义流式任务的调度方式,包括:解析所述工作流,确定...

【专利技术属性】
技术研发人员:胡永泽
申请(专利权)人:济南浪潮数据技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1