【技术实现步骤摘要】
分布式系统的监控方法、计算机设备及存储介质
[0001]本申请涉及计算机
,尤其涉及一种分布式系统的监控方法、计算机设备及存储介质。
技术介绍
[0002]目前,分布式系统通过其上部署的分布式数据处理组件,对外提供数据处理组件。同时,为了便于解决分布式数据处理组件经常遇到的一些数据管理问题,通常分布式系统还部署了分布式应用程序协调服务。其中,分布式应用程序协调服务可以提供统一命名服务、状态同步服务、集群管理、分布式数据处理组件配置项的管理等。分布式应用程序协调服务例如为zookeeper软件或etcd软件,其中,zookeeper为分布式数据处理组件提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。etcd软件基于Go语言实现,帮助实现分布式系统数据的可用性和一致性。
[0003]实际应用中,分布式应用程序协调服务中的协调服务组件或分布式数据处理组件中的数据处理组件在运行过程中可能出现异常。通常这种情况下需要在第一时间通知管理员排查异常原因,并进行针对性异常恢复,待异常恢复之后,重新启动协调服务或数据处理组件以继续提供相应服务。然而,人工异常处理方式的效率低,且异常恢复的成功率较低。
技术实现思路
[0004]本申请的多个方面提供一种分布式系统的监控方法、计算机设备及存储介质,用以而实现针对分布式系统的自动化异常处理,改善异常处理效率和异常恢复的成功率。
[0005]本申请实施例提供一种分布式系统的监控方法,分布式系统包括多个服务节点,每个服务节点上 ...
【技术保护点】
【技术特征摘要】
1.一种分布式系统的监控方法,其特征在于,所述分布式系统包括多个服务节点,每个服务节点上部署有协调服务组件、数据处理组件和监控组件,且所述数据处理组件的运行依赖于所述协调服务组件的正常运行;所述方法包括:第一监控组件监控与其部署在同一服务节点上的第一协调服务组件和第一数据处理组件的运行状态;所述第一监控组件为任一监控组件;若监控到所述第一协调服务组件的运行状态异常,则控制所述第一协调服务组件和所述第一数据处理组件终止运行,并控制所述第一协调服务组件重启,直至所述第一协调服务组件在本轮重启次数达到第一最大重启次数之前进入正常运行状态或本轮重启次数达到第一最大重启次数为止;以及在所述第一协调服务组件在本轮重启次数达到第一最大重启次数之前进入正常运行状态的情况下,控制所述第一数据处理组件重启,直至所述第一数据处理组件在本轮重启次数达到第二最大重启次数之前进入正常运行状态或本轮重启次数达到第二最大重启次数为止;若监控到所述第一数据处理组件的运行状态异常,则仅控制所述第一数据处理组件终止运行,并控制所述第一数据处理组件重启,直至所述第一数据处理组件在本轮重启次数达到所述第二最大重启次数之前进入正常运行状态或本轮重启次数达到所述第二最大重启次数为止。2.根据权利要求1所述的方法,其特征在于,在控制所述第一数据处理组件重启之前,还包括:重新配置所述第一数据处理组件的运行环境,并在配置完所述第一数据处理组件的运行环境后,控制所述第一数据处理组件重启。3.根据权利要求1所述的方法,其特征在于,监控所述第一数据处理组件的运行状态,包括:监控所述第一数据处理组件对应的进程状态;若所述第一数据处理组件对应的进程状态异常,则确定所述第一数据处理组件的运行状态异常;若所述第一数据处理组件对应的进程状态正常,则查询多个协调服务组件中是否存在包括所述第一数据处理组件对应的临时节点的协调服务组件,所述临时节点是在所述第一数据处理组件与所述第一协调服务组件建立通信连接之后创建的;若多个协调服务组件中存在包括所述第一数据处理组件对应的临时节点的协调服务组件,则所述第一数据处理组件的运行状态正常;若多个协调服务组件中不存在包括所述第一数据处理组件对应的临时节点的协调服务组件,则所述第一数据处理组件的运行状态异常。4.根据权利要求3所述的方法,其特征在于,还包括:若查询不到包括所述第一数据处理组件对应的临时节点的协调服务组件,则所述第一监控组件向多个协调服务组件中至少一个协调服务组件发送第一修改请求,以使多个协调服务组件中至少一个协调服务组件将状态管理表单中存储的所述第一数据处理组件的运行状态由上线状态修改为下线状态。5.根据权利要求1所述的方法,其特征在于,在所述第一协调服务组件和所述第一数据处理组件均处于正常运行状态的情况下,所述方法还包括:
若所述第一监控组件在本地检测到指示所述第一监控组件与所述第一协调服务组件连接异常的第一异常通告信息,则控制所述第一协调服务组件和所述第一数据处理组件终止运行,并控制所述第一协调服务组件重启,直至所述第一协调服务组件在本轮重启次数达到第一最大重启次数之前进入正常运行状态或本轮重启次数达到第一最大重启次数为止;以及在所述第一协调服务组件在本轮重启次数达到第一最大重启次数之前进入正常运行状态的情况下,控制所述第一数据处...
【专利技术属性】
技术研发人员:黄庆新,吴焱扬,
申请(专利权)人:锐捷网络股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。