分布式系统的监控方法、计算机设备及存储介质技术方案

技术编号:32531692 阅读:28 留言:0更新日期:2022-03-05 11:26
本申请实施例提供一种分布式系统的监控方法、计算机设备及存储介质。在本申请实施例中,分布式监控服务中任一监控组件都对部署在同一服务节点上的协调服务组件和数据处理组件的运行状态进行监控,并在监控到相应的协调服务组件的运行状态异常时,采用自动重启机制重新启动相应的协调服务组件和数据处理组件。另外,若仅仅监控到数据处理组件的运行状态异常时,也会采用重启机制重新启动相应的数据处理组件。进而实现分布式系统的异常自动发现和异常自动恢复,且从异常自动发现到异常自动恢复的自动化异常处理的效率更高,异常恢复的成功率更高。功率更高。功率更高。

【技术实现步骤摘要】
分布式系统的监控方法、计算机设备及存储介质


[0001]本申请涉及计算机
,尤其涉及一种分布式系统的监控方法、计算机设备及存储介质。

技术介绍

[0002]目前,分布式系统通过其上部署的分布式数据处理组件,对外提供数据处理组件。同时,为了便于解决分布式数据处理组件经常遇到的一些数据管理问题,通常分布式系统还部署了分布式应用程序协调服务。其中,分布式应用程序协调服务可以提供统一命名服务、状态同步服务、集群管理、分布式数据处理组件配置项的管理等。分布式应用程序协调服务例如为zookeeper软件或etcd软件,其中,zookeeper为分布式数据处理组件提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。etcd软件基于Go语言实现,帮助实现分布式系统数据的可用性和一致性。
[0003]实际应用中,分布式应用程序协调服务中的协调服务组件或分布式数据处理组件中的数据处理组件在运行过程中可能出现异常。通常这种情况下需要在第一时间通知管理员排查异常原因,并进行针对性异常恢复,待异常恢复之后,重新启动协调服务或数据处理组件以继续提供相应服务。然而,人工异常处理方式的效率低,且异常恢复的成功率较低。

技术实现思路

[0004]本申请的多个方面提供一种分布式系统的监控方法、计算机设备及存储介质,用以而实现针对分布式系统的自动化异常处理,改善异常处理效率和异常恢复的成功率。
[0005]本申请实施例提供一种分布式系统的监控方法,分布式系统包括多个服务节点,每个服务节点上部署有协调服务组件、数据处理组件和监控组件,且数据处理组件的运行依赖于协调服务组件的正常运行;该方法包括:
[0006]第一监控组件监控与其部署在同一服务节点上的第一协调服务组件和第一数据处理组件的运行状态;第一监控组件为任一监控组件;
[0007]若监控到第一协调服务组件的运行状态异常,则控制第一协调服务组件和第一数据处理组件终止运行,并控制第一协调服务组件重启,直至第一协调服务组件在本轮重启次数达到第一最大重启次数之前进入正常运行状态或本轮重启次数达到第一最大重启次数为止;以及在第一协调服务组件在本轮重启次数达到第一最大重启次数之前进入正常运行状态的情况下,控制第一数据处理组件重启,直至第一数据处理组件在本轮重启次数达到第二最大重启次数之前进入正常运行状态或本轮重启次数达到第二最大重启次数为止;
[0008]若监控到第一数据处理组件的运行状态异常,则仅控制第一数据处理组件终止运行,并控制第一数据处理组件重启,直至第一数据处理组件在本轮重启次数达到第二最大重启次数之前进入正常运行状态或本轮重启次数达到第二最大重启次数为止。
[0009]本申请实施例还提供一种计算机设备,包括:存储器和处理器;
[0010]存储器,用于存储计算机程序;
[0011]处理器耦合至存储器,用于执行计算机程序以用于执行分布式系统的监控方法中的步骤。
[0012]本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,当计算机程序被处理器执行时,致使处理器实现分布式系统的监控方法中的步骤。
[0013]在本申请实施例中,分布式监控服务中任一监控组件都对部署在同一服务节点上的协调服务组件和数据处理组件的运行状态进行监控,并在监控到相应的协调服务组件的运行状态异常时,采用自动重启机制重新启动相应的协调服务组件和数据处理组件。另外,若仅仅监控到数据处理组件的运行状态异常时,也会采用重启机制重新启动相应的数据处理组件。进而实现分布式系统的异常自动发现和异常自动恢复,且从异常自动发现到异常自动恢复的自动化异常处理的效率更高,异常恢复的成功率更高。
附图说明
[0014]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0015]图1为本申请一示例性实施例提供的一种分布式系统的结构示意图;
[0016]图2为本申请一示例性实施例提供的一种分布式系统的监控方法的流程示意图;
[0017]图3为本申请一示例性实施例提供的另一种分布式系统的监控方法的流程示意图;
[0018]图4为本申请一示例性实施例提供的一种计算机设备的结构示意图。
具体实施方式
[0019]为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0020]针对现有人工异常处理方式的效率低,且异常恢复的成功率较低的技术问题,本申请实施例提供一种分布式系统的监控方法、计算机设备及存储介质。在本申请实施例中,分布式监控服务中任一监控组件都对部署在同一服务节点上的协调服务组件和数据处理组件的运行状态进行监控,并在监控到相应的协调服务组件的运行状态异常时,采用自动重启机制重新启动相应的协调服务组件和数据处理组件。另外,若仅仅监控到数据处理组件的运行状态异常时,也会采用重启机制重新启动相应的数据处理组件。进而实现分布式系统的异常自动发现和异常自动恢复,且从异常自动发现到异常自动恢复的自动化异常处理的效率更高,异常恢复的成功率更高。
[0021]图1为本申请一示例性实施例提供的一种分布式系统的结构示意图。如图1所示,该系统上部署有分布式应用程序协调服务、分布式数据处理服务和分布式监控服务。其中,分布式系统包括多个服务节点101,每个服务节点101可以是一个服务器。任一服务节点101上部署有分布式应用程序协调服务中的一个协调服务组件104、分布式数据处理服务中的一个数据处理组件102和分布式监控服务中的一个监控组件103,且所述数据处理组件102的运行依赖于所述协调服务组件104的正常运行,也即部署在同一服务节点101的协调服务
组件104正常运行是关联的数据处理组件102正常运行的前提保证。其中,同一服务节点101部署的协调服务组件104分别与关联的监控组件103、数据处理组件102通信连接。另外,部署在同一服务节点101上的监控组件103和数据处理组件102通过协调服务组件104进行数据交互。
[0022]其中,分布式应用程序协调服务是一个为分布式应用提供一致性服务的软件,主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。其中,分布式应用程序协调服务例如包括但不限于:zookeeper、etcd。zookeeper是分布式系统的可靠协调系统,其提供的功能包括:配置维护、域名服务、分布式同步、组服务等。Etcd的目标是构建一个高可用的分布式键值(key

value)数据库。etcd内部采用raft协议作为一致性算法,etcd基于Go本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分布式系统的监控方法,其特征在于,所述分布式系统包括多个服务节点,每个服务节点上部署有协调服务组件、数据处理组件和监控组件,且所述数据处理组件的运行依赖于所述协调服务组件的正常运行;所述方法包括:第一监控组件监控与其部署在同一服务节点上的第一协调服务组件和第一数据处理组件的运行状态;所述第一监控组件为任一监控组件;若监控到所述第一协调服务组件的运行状态异常,则控制所述第一协调服务组件和所述第一数据处理组件终止运行,并控制所述第一协调服务组件重启,直至所述第一协调服务组件在本轮重启次数达到第一最大重启次数之前进入正常运行状态或本轮重启次数达到第一最大重启次数为止;以及在所述第一协调服务组件在本轮重启次数达到第一最大重启次数之前进入正常运行状态的情况下,控制所述第一数据处理组件重启,直至所述第一数据处理组件在本轮重启次数达到第二最大重启次数之前进入正常运行状态或本轮重启次数达到第二最大重启次数为止;若监控到所述第一数据处理组件的运行状态异常,则仅控制所述第一数据处理组件终止运行,并控制所述第一数据处理组件重启,直至所述第一数据处理组件在本轮重启次数达到所述第二最大重启次数之前进入正常运行状态或本轮重启次数达到所述第二最大重启次数为止。2.根据权利要求1所述的方法,其特征在于,在控制所述第一数据处理组件重启之前,还包括:重新配置所述第一数据处理组件的运行环境,并在配置完所述第一数据处理组件的运行环境后,控制所述第一数据处理组件重启。3.根据权利要求1所述的方法,其特征在于,监控所述第一数据处理组件的运行状态,包括:监控所述第一数据处理组件对应的进程状态;若所述第一数据处理组件对应的进程状态异常,则确定所述第一数据处理组件的运行状态异常;若所述第一数据处理组件对应的进程状态正常,则查询多个协调服务组件中是否存在包括所述第一数据处理组件对应的临时节点的协调服务组件,所述临时节点是在所述第一数据处理组件与所述第一协调服务组件建立通信连接之后创建的;若多个协调服务组件中存在包括所述第一数据处理组件对应的临时节点的协调服务组件,则所述第一数据处理组件的运行状态正常;若多个协调服务组件中不存在包括所述第一数据处理组件对应的临时节点的协调服务组件,则所述第一数据处理组件的运行状态异常。4.根据权利要求3所述的方法,其特征在于,还包括:若查询不到包括所述第一数据处理组件对应的临时节点的协调服务组件,则所述第一监控组件向多个协调服务组件中至少一个协调服务组件发送第一修改请求,以使多个协调服务组件中至少一个协调服务组件将状态管理表单中存储的所述第一数据处理组件的运行状态由上线状态修改为下线状态。5.根据权利要求1所述的方法,其特征在于,在所述第一协调服务组件和所述第一数据处理组件均处于正常运行状态的情况下,所述方法还包括:
若所述第一监控组件在本地检测到指示所述第一监控组件与所述第一协调服务组件连接异常的第一异常通告信息,则控制所述第一协调服务组件和所述第一数据处理组件终止运行,并控制所述第一协调服务组件重启,直至所述第一协调服务组件在本轮重启次数达到第一最大重启次数之前进入正常运行状态或本轮重启次数达到第一最大重启次数为止;以及在所述第一协调服务组件在本轮重启次数达到第一最大重启次数之前进入正常运行状态的情况下,控制所述第一数据处...

【专利技术属性】
技术研发人员:黄庆新吴焱扬
申请(专利权)人:锐捷网络股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1