一种故障处理的方法和装置制造方法及图纸

技术编号:34774715 阅读:58 留言:0更新日期:2022-08-31 19:44
本发明专利技术公开了一种故障处理的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:监听目标任务管理器的运行状态;响应于监听到指示所述运行状态异常的异常信号,向与所述目标任务管理器对应的作业管理器发送指示所述目标任务管理器异常的异常信息,以使所述作业管理器触发针对所述异常信息的故障恢复策略。该实施方式通过实时获取针对任务管理器的运行状态异常的异常信号,并及时通知对应的作业管理器,以使得作业管理器及时触发故障恢复,极大地加快了任务的恢复速度,提高了业务处理的效率。务处理的效率。务处理的效率。

【技术实现步骤摘要】
一种故障处理的方法和装置


[0001]本专利技术涉及计算机
,尤其涉及一种故障处理的方法和装置。

技术介绍

[0002]随着大数据技术的发展,业务对实时性的要求越来越高的,越来越多的业务利用实时计算加速业务的发展,基于云原生的实时计算产品越来越受到广泛的应用,其中Flink on K8s的架构模式更是成为业务主流。
[0003]在Flink on K8s的架构下,TaskManager(任务管理器)进程异常依赖TaskManager到ResourceManager(资源管理器)的心跳机制,心跳默认超时时间一般大于60秒,超时后触发故障恢复任务,但是心跳超时时间较长,故障恢复时间较长,不能满足业务计算的实时性要求。

技术实现思路

[0004]有鉴于此,本专利技术实施例提供一种故障处理的方法和装置,能够通过实时获取针对任务管理器的异常信号,并及时通知对应的作业管理器,以使得作业管理器及时触发故障恢复,极大地加快了任务的恢复速度,提高了业务处理的效率。
[0005]为实现上述目的,根据本专利技术实施例的一个方面,提供了一种故障处理的方法,包括:
[0006]监听目标任务管理器的运行状态;
[0007]响应于监听到指示所述运行状态异常的异常信号,向与所述目标任务管理器对应的作业管理器发送指示所述目标任务管理器异常的异常信息,以使所述作业管理器触发针对所述异常信息的故障恢复策略。
[0008]可选地,所述异常信号为kubelet进程发送的停止信号。
[0009]可选地,所述异常信号为所述目标任务管理器的退出信号。
[0010]可选地,向与所述目标任务管理器对应的作业管理器发送指示所述目标任务管理器异常的异常信息,包括:
[0011]从缓存中获取所述作业管理器的地址信息,根据所述地址信息向所述作业管理器发送所述异常信息。
[0012]可选地,从缓存中获取所述作业管理器的地址信息之前,包括:
[0013]监控与所述目标任务管理器对应的作业管理器的地址信息,并将监控得到的所述作业管理器的地址信息和所述目标任务管理器的标识对应保存至所述缓存中。
[0014]可选地,所述作业管理器触发针对所述异常信息的故障恢复策略,包括:
[0015]所述作业管理器向资源管理器发送指示所述目标任务管理器异常的异常通知,所述资源管理器将所述异常通知发送至心跳管理器,所述心跳管理器在接收到所述异常通知后取消对所述目标任务管理器的心跳监测,所述心跳管理器回调所述资源管理器,以使所述资源管理器取消对所述目标任务管理器的注册,以触发所述故障恢复策略。
[0016]可选地,所述作业管理器触发针对所述异常信息的故障恢复策略,还包括:
[0017]所述资源管理器回调所述作业管理器,以使所作业管理器获取所述目标任务管理器中执行失败的任务;
[0018]所述作业管理器将所述执行失败的任务重新分配至新启动的任务管理器中,以实现故障恢复。
[0019]根据本专利技术实施例的再一个方面,提供了一种故障处理的装置,包括:
[0020]监听模块,监听目标任务管理器的运行状态;
[0021]发送模块,响应于监听到指示所述运行状态异常的异常信号,向与所述目标任务管理器对应的作业管理器发送指示所述目标任务管理器异常的异常信息,以使所述作业管理器触发针对所述异常信息的故障恢复策略。
[0022]根据本专利技术实施例的另一个方面,提供了一种电子设备,包括:
[0023]一个或多个处理器;
[0024]存储装置,用于存储一个或多个程序,
[0025]当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术提供的故障处理的方法。
[0026]根据本专利技术实施例的还一个方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本专利技术提供的故障处理的方法。
[0027]上述专利技术中的一个实施例具有如下优点或有益效果:通过监听目标任务管理器的运行状态,能够及时的监听到运行状态异常的异常信号,以便于及时向对应的作业管理器发送异常信息,使得作业管理器及时触发故障恢复任务,及时回复作业。该方法能够加快任务的恢复速度,提高业务处理的效率。
[0028]上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
[0029]附图用于更好地理解本专利技术,不构成对本专利技术的不当限定。其中:
[0030]图1是根据本专利技术实施例的一种故障处理的方法的主要流程的示意图;
[0031]图2是根据本专利技术实施例的一种Flink on K8s架构的主要示意图;
[0032]图3是根据本专利技术实施例的另一种故障处理的方法的主要流程示意图;
[0033]图4是本专利技术实施例的一种故障处理的方法的流程示意图;
[0034]图5是根据本专利技术实施例的故障处理的装置的主要模块的示意图;
[0035]图6是本专利技术实施例可以应用于其中的示例性系统架构图;
[0036]图7是适于用来实现本专利技术实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
[0037]以下结合附图对本专利技术的示范性实施例做出说明,其中包括本专利技术实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本专利技术的范围和精神。同
样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0038]图1是根据本专利技术实施例的一种故障处理的方法的主要流程的示意图,如图1所示,该方法包括以下步骤:
[0039]步骤S101:监听目标任务管理器的运行状态;
[0040]步骤S102:判断是否监听到指示运行状态异常的异常信号;若是,执行步骤S103,否则,执行步骤S101;
[0041]步骤S103:向与目标任务管理器对应的作业管理器发送指示目标任务管理器异常的异常信息,以使作业管理器触发针对异常信息的故障恢复策略。
[0042]本专利技术实施例的故障处理的方法基于Flink on K8s架构模式实现的,其中,Flink为基于数据流的有状态计算引擎;K8s全称为Kubernetes,容器编排调度引擎。图2为本专利技术实施例的一种Flink on K8s架构的示意图,用户可以通过Web服务(如jrc平台)上的K8s客户端向K8s集群发送创建Flink集群的请求,该请求为创建K8s Deployment(K8s中用于Pod管理的对象)的命令,K8s Master(K8s集群主节点)根据请求中的K8s Deployment信息创建K8s Deployment并从Docker Registry(应用容器引擎镜像库)拉取镜像信息,同时获取与每个K8s Deployment对应的K8s POD,分别得到与JobManager(作业管理器)和Ta本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种故障处理的方法,其特征在于,包括:监听目标任务管理器的运行状态;响应于监听到指示所述运行状态异常的异常信号,向与所述目标任务管理器对应的作业管理器发送指示所述目标任务管理器异常的异常信息,以使所述作业管理器触发针对所述异常信息的故障恢复策略。2.根据权利要求1所述的方法,其特征在于,所述异常信号为kubelet进程发送的停止信号。3.根据权利要求1所述的方法,其特征在于,所述异常信号为所述目标任务管理器的退出信号。4.根据权利要求1所述的方法,其特征在于,向与所述目标任务管理器对应的作业管理器发送指示所述目标任务管理器异常的异常信息,包括:从缓存中获取所述作业管理器的地址信息,根据所述地址信息向所述作业管理器发送所述异常信息。5.根据权利要4所述的方法,其特征在于,从缓存中获取所述作业管理器的地址信息之前,包括:监控与所述目标任务管理器对应的作业管理器的地址信息,并将监控得到的所述作业管理器的地址信息和所述目标任务管理器的标识对应保存至所述缓存中。6.根据权利要求1所述的方法,其特征在于,所述作业管理器触发针对所述异常信息的故障恢复策略,包括:所述作业管理器向资源管理器发送指示所述目标任务管理器异常的异常通知,所述资源管理器将所述异常通知发送至心跳管理器,所述心跳管理器在接收到...

【专利技术属性】
技术研发人员:裴周宇付海涛
申请(专利权)人:北京京东世纪贸易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1