流式任务自动化监控告警重启系统及方法技术方案

技术编号:26342236 阅读:17 留言:0更新日期:2020-11-13 20:31
本发明专利技术提供了一种流式任务自动化监控告警重启系统及方法,包括:注册服务模块:对流式任务进行注册;发现服务模块:监听正常的任务,发现了异常情况时,进行预设的操作处理并在注册中心对应异常任务的状态修改;告警重启系统:轮询注册中心的非RUNNING状态的任务。本发明专利技术通过采用单一部署执行和批量部署执行的双重模式,不但可以对单个任务进行注册也可以对现有的流式job进行批量部署注册可以有效的减少运维工程师的工作量和操作复杂度。

Alarm restart system and method of flow task automatic monitoring

【技术实现步骤摘要】
流式任务自动化监控告警重启系统及方法
本专利技术涉及大数据处理
,具体地,涉及流式任务自动化监控告警重启系统及方法。尤其地,涉及MAFJ在工业大数据流任务自动化监控重启中的应用。
技术介绍
随着大数据的发展,人们对大数据的处理的工具也越来越丰富,作为目前最受欢迎的流式处理框架flink,自然也是在各个领域中被引用,flink的实时计算能力也是在各种场景中表现优异,在工业大数据领域中,也渐渐被应用起来。然而,目前对技术的应用普遍是对业务的出来和数据的整合,并没有对其本身任务的一种调度系统。现市场上的flink大数据架构大多数习惯于对处理数据的监控,反而对其本身的状态的监控并不严谨,所以当任务出现异常,解决问题会变得复杂和缓慢,同时,也对实际的业务数据存在一定的影响,如果不能及时解决,则会带来更大的损失。MAFJ系统是为了实现简洁化部署,任务的注册和异常发现服务,以及对异常任务进行报警和重启的功能,实现自动化管理的功能,同时,出现难以解决的异常状况,报警功能也可以找到相关的负责人进行手动解决,保证了最短时间内解决问题,减少其带来的损失。经对现有技术进行检索,发现如下相关检索结果。相关检索结果1:申请号:201911251688.X名称:一种基于flink的微服务性能实时监控方法该专利技术公开一种基于flink的微服务性能实时监控方法,包括以下步骤S1:性能日志埋点;S2:日志采集;S3:聚合计算;S4:结果存储。本专利技术对微服务架构涉及到的应用服务调用,进行全方位监控,任何一个组件出现问题,就可以通过监控看出出问题的源头在哪。日志埋点时,通过异步单线程进行写入,避免了对应用性能造成影响。在应用层进行一分钟内的监控数据的统计,避免造成了过多的资源浪费。本专利技术使用flink计算引擎,能够非常实时地计算出结果,使用clickhouse作为数据存储,能支持集群部署,提供稳定性,可靠性,并且不依赖其他组件,更加简单,不易出问题;查询,批量写入性能高;压缩比高,能为企业降低成本。技术要点比较:其系统是对日志文件的内容进行实时监控,使用了微服务技术以及clickhouse进行存储,是对业务数据进行监控的系统,而本系统是对flink的任务进行实时的监控,存在心跳机制,可以实时的监控到任务的异常状态,相比较于这种处理业务的系统,MAFJ监控是侧重于其去处理业务数据的任务的维护,主要可以降低风险,实现自动化告警重启,极大的降低的运维成本和系统架构异常而带来的损失。
技术实现思路
针对现有技术中的缺陷,本专利技术的目的是提供一种流式任务自动化监控告警重启系统及方法。根据本专利技术提供的一种流式任务自动化监控告警重启系统,包括注册服务模块:对流式任务进行注册;发现服务模块:监听正常的任务,发现了异常情况时,进行预设的操作处理并在注册中心对应异常任务的状态修改;告警重启系统:轮询注册中心的非RUNNING状态的任务。优选地,所述注册服务模块包括两种部署和执行模式:单个部署执行模式:工程师完成相应的流式任务的开发并按照规定的注册参数将自己的job注册到注册中心;批量部署执行模式:运维工程师将所有现有的流式任务进行统一管理统一注册。优选地,所述对流式任务进行注册包括以下步骤:步骤一:重写注册服务中的一个开放api主程序将相关参数传入到接口中,相关参数包括:任务名称,任务负责人信息以及任务启动命令信息;步骤二:将重写的api主程序加入批量注册管道,以使服务器或者CDH集群重启能够直接批量注册;步骤三:将重写的api主程序执行注册。优选地,所述发现服务模块:模块S1:定期去查询注册中心中所有的状态显示正常的任务名;模块S2:将查到的任务名,逐个进行在服务器上此任务是否在资源管理器系统yarn上存在进程的判断,如果不存在进程,表示此任务已经不存在,则将注册中心中此任务的状态修改为失败,如果存在进程,调用模块S3;模块S2:资源管理器系统yarn上存在相应的进程时,表示有此任务的运行空间,进一步查看这个任务是否是在运行状态,可直接调用flink提供的API接口查看对应任务的实际运行状态;模块S4:调用接口,可得到一个json格式字符串,解析获得key为state的value值,即为任务的实际状态,如果是RUNNING,表示正常运行,则此任务是正常状态,不作处理,如果是RESTARTING,表示此任务已经结束,此时需要先用命令杀死掉资源管理器系统上的对应进程,再进行注册中心状态的修改,将状态改为失败;模块S5:如果状态为其他的状态,表示任务目前处于异常状态,但任务仍然在运行,此时需要在注册中心进行状态的修改,将状态改为其他的状态。优选地,所述轮询注册中心的非RUNNING状态的任务包括以下步骤:步骤一:轮询监控注册中心的非RUNNING状态的任务到一个列表;步骤二:列表中短期任务和非失败的任务只需要告警出来;步骤三:将长期类型的失败状态的任务需要告警另外需要重写执行注册服务中的开发api主程序重新注册任务到注册中心。根据本专利技术提供的一种流式任务自动化监控告警重启方法,包括注册服务步骤:对流式任务进行注册;发现服务步骤:监听正常的任务,发现了异常情况时,进行预设的操作处理并在注册中心对应异常任务的状态修改;告警重启步骤:轮询注册中心的非RUNNING状态的任务。优选地,所述注册服务步骤包括两种部署和执行模式:单个部署执行模式:工程师完成相应的流式任务的开发并按照规定的注册参数将自己的job注册到注册中心;批量部署执行模式:运维工程师将所有现有的流式任务进行统一管理统一注册。优选地,所述对流式任务进行注册包括以下步骤:步骤一:重写注册服务中的一个开放api主程序将相关参数传入到接口中,相关参数包括:任务名称,任务负责人信息以及任务启动命令信息;步骤二:将重写的api主程序加入批量注册管道,以使服务器或者CDH集群重启能够直接批量注册;步骤三:将重写的api主程序执行注册。优选地,所述发现服务步骤:步骤S1:定期去查询注册中心中所有的状态显示正常的任务名;步骤S2:将查到的任务名,逐个进行在服务器上此任务是否在资源管理器系统yarn上存在进程的判断,如果不存在进程,表示此任务已经不存在,则将注册中心中此任务的状态修改为失败,如果存在进程,进入步骤S3;步骤S3:资源管理器系统yarn上存在相应的进程时,表示有此任务的运行空间,进一步查看这个任务是否是在运行状态,可直接调用flink提供的API接口查看对应任务的实际运行状态;步骤S4:调用接口,可得到一个json格式字符串,解析获得key为state的value值,即为任务的实际状态,如果是RUNNING,表示正常运行,则此任务是正常状态,不作处理,如果是RESTARTING,表示此任务本文档来自技高网
...

【技术保护点】
1.一种流式任务自动化监控告警重启系统,其特征在于,包括/n注册服务模块:对流式任务进行注册;/n发现服务模块:监听正常的任务,发现了异常情况时,进行预设的操作处理并在注册中心对应异常任务的状态修改;/n告警重启系统:轮询注册中心的非RUNNING状态的任务。/n

【技术特征摘要】
1.一种流式任务自动化监控告警重启系统,其特征在于,包括
注册服务模块:对流式任务进行注册;
发现服务模块:监听正常的任务,发现了异常情况时,进行预设的操作处理并在注册中心对应异常任务的状态修改;
告警重启系统:轮询注册中心的非RUNNING状态的任务。


2.根据权利要求1所述的流式任务自动化监控告警重启系统,其特征在于,所述注册服务模块包括两种部署和执行模式:
单个部署执行模式:工程师完成相应的流式任务的开发并按照规定的注册参数将自己的job注册到注册中心;
批量部署执行模式:运维工程师将所有现有的流式任务进行统一管理统一注册。


3.根据权利要求2所述的流式任务自动化监控告警重启系统,其特征在于,所述对流式任务进行注册包括以下步骤:
步骤一:重写注册服务中的一个开放api主程序将相关参数传入到接口中,相关参数包括:任务名称,任务负责人信息以及任务启动命令信息;
步骤二:将重写的api主程序加入批量注册管道,以使服务器或者CDH集群重启能够直接批量注册;
步骤三:将重写的api主程序执行注册。


4.根据权利要求1所述的流式任务自动化监控告警重启系统,其特征在于,所述发现服务模块:
模块S1:定期去查询注册中心中所有的状态显示正常的任务名;
模块S2:将查到的任务名,逐个进行在服务器上此任务是否在资源管理器系统yarn上存在进程的判断,如果不存在进程,表示此任务已经不存在,则将注册中心中此任务的状态修改为失败,如果存在进程,调用模块S3;
模块S2:资源管理器系统yarn上存在相应的进程时,表示有此任务的运行空间,进一步查看这个任务是否是在运行状态,可直接调用flink提供的API接口查看对应任务的实际运行状态;
模块S4:调用接口,可得到一个json格式字符串,解析获得key为state的value值,即为任务的实际状态,如果是RUNNING,表示正常运行,则此任务是正常状态,不作处理,如果是RESTARTING,表示此任务已经结束,此时需要先用命令杀死掉资源管理器系统上的对应进程,再进行注册中心状态的修改,将状态改为失败;
模块S5:如果状态为其他的状态,表示任务目前处于异常状态,但任务仍然在运行,此时需要在注册中心进行状态的修改,将状态改为其他的状态。


5.根据权利要求1所述的流式任务自动化监控告警重启系统,其特征在于,所述轮询注册中心的非RUNNING状态的任务包括以下步骤:
步骤一:轮询监控注册中心的非RUNNING状态的任务到一个列表;
步骤二:列表中短期任务和非失败的任务只需要告警出来;
步骤三:将长期类型的失败状态的任务需要告警另外需要重写执行注册服务中的开发api主程序重新注册任务到注册中心。

【专利技术属性】
技术研发人员:史可戴飞俊
申请(专利权)人:上海微亿智造科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1