分布式管理系统中组件的进程故障自愈方法、装置及设备制造方法及图纸

技术编号:26342240 阅读:42 留言:0更新日期:2020-11-13 20:31
本申请公开了一种分布式管理系统中组件的进程故障自愈方法、装置及设备,该方法包括:获取包括分布式管理系统中分布式管理服务器的应用程序接口地址和分布式管理系统中元数据库的元数据库地址的配置信息;利用应用程序接口地址从分布式管理服务器获取组件的当前运行状态;利用元数据库地址从元数据库获取元数据;根据当前运行状态和元数据,对组件进行故障检查;当检查到存在故障组件时,利用应用程序接口向所述分布式管理服务器发送所述故障组件的进程重启任务。利用本申请实施例提供的技术方案可以实现跨版本兼容,自愈流程可见,服务集成代码无侵入,简单高效的分布式管理系统中组件的进程故障自愈。

Process fault self-healing method, device and equipment of components in distributed management system

【技术实现步骤摘要】
分布式管理系统中组件的进程故障自愈方法、装置及设备
本申请涉及互联网通信
,尤其涉及一种分布式管理系统中组件的进程故障自愈方法、装置及设备。
技术介绍
随着互联网通信技术的日新月异,一些大型的互联网业务系统,由于业务复杂等原因,会采用分布式集群管理。随之也产生了大量用于进行分布式集群管理的服务管理系统,如Apacheambari等,但随着管理的单个分布式集群系统中节点逐渐的增多,各种因硬件、软件导致的组件故障时有发生,一些常见的故障例如内存不足、网络抖动、磁盘IO过载等导致的进程终止,通常只需要将进程重新拉起即可实现故障自愈。现有的故障自愈方案主要有以下两种:一种是通过修改分布式管理系统的组件全局配置文件,重启服务后由分布式管理系统中的代理节点负责处理组件的进程故障自愈;另一种是废除了前一种的全局配置,通过修改服务集成代码定义故障自愈相关信息,并在分布式管理系统中的web界面中配置是否启动故障自愈。但上述两种方案间存在版本不兼容的问题,且当组件进程异常终止后,故障自愈均会在分布式管理系统的后台静默拉起进程进行恢复,导致故障自愈流程本文档来自技高网...

【技术保护点】
1.一种分布式管理系统中组件的进程故障自愈方法,其特征在于,所述方法包括:/n获取配置信息,所述配置信息包括分布式管理系统中分布式管理服务器的应用程序接口地址和所述分布式管理系统中元数据库的元数据库地址;/n利用所述应用程序接口地址从所述分布式管理服务器获取所述分布式管理系统对应服务下组件的当前运行状态;/n利用所述元数据库地址从所述元数据库获取所述分布式管理系统的元数据,所述元数据表征所述分布式管理系统对应服务和所述服务下组件的工作状态;/n根据所述当前运行状态和所述元数据,对所述组件进行故障检查;/n当检查到存在故障组件时,利用所述应用程序接口向所述分布式管理服务器发送所述故障组件的进程重...

【技术特征摘要】
1.一种分布式管理系统中组件的进程故障自愈方法,其特征在于,所述方法包括:
获取配置信息,所述配置信息包括分布式管理系统中分布式管理服务器的应用程序接口地址和所述分布式管理系统中元数据库的元数据库地址;
利用所述应用程序接口地址从所述分布式管理服务器获取所述分布式管理系统对应服务下组件的当前运行状态;
利用所述元数据库地址从所述元数据库获取所述分布式管理系统的元数据,所述元数据表征所述分布式管理系统对应服务和所述服务下组件的工作状态;
根据所述当前运行状态和所述元数据,对所述组件进行故障检查;
当检查到存在故障组件时,利用所述应用程序接口向所述分布式管理服务器发送所述故障组件的进程重启任务。


2.根据权利要求1所述的方法,其特征在于,所述元数据包括所述组件的目标运行状态、所述组件的模式信息、所述组件所属服务的模式信息和所述服务组件所在节点的模式信息;
所述根据所述当前运行状态和所述元数据,对所述组件进行故障检查包括:
根据所述组件的当前运行状态和目标运行状态,确定当前运行状态为停止运行状态且目标运行状态为启动运行状态的待自愈组件;
根据所述待自愈组件的模式信息、所述待自愈组件的所属服务的模式信息和所述待自愈组件所在节点的模式信息对所述待自愈组件进行维护模式检查;
当所述待自愈组件的模式信息、所述待自愈组件的所属服务的模式信息和所述待自愈组件所在节点的模式信息均为非维护模式时,确定所述待自愈组件为故障组件。


3.根据权利要求2所述的方法,其特征在于,所述元数据还包括所述组件的当前运行状态;
相应的,所述根据所述当前运行状态和所述元数据,对所述组件进行故障检查还包括:
对所述元数据中组件的当前运行状态和所述分布式管理服务器中获取的所述组件的当前运行状态进行一致性验证;
当一致性验证通过时,执行根据所述组件的当前运行状态和目标运行状态,确定当前运行状态为停止运行状态且目标运行状态为启动运行状态的待自愈组件的步骤。


4.根据权利要求1至3任一所述的方法,其特征在于,在所述利用所述应用程序接口向所述分布式管理服务器发送所述故障组件的进程重启任务之前,所述方法还包括:
确定所述故障组件所在节点的连通性;
当所述故障组件所在节点连通时,利用所述应用程序接口向所述分布式管理服务器发送所述故障组件的进程重启任务。


5.根据权利要求1至3任一所述的方法,其特征在于,在所述利用所述应用程序接口向所述分布式管理服务器发送所述故障组件的进程重启任务之前,所...

【专利技术属性】
技术研发人员:高永伟
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1