【技术实现步骤摘要】
分布式系统的故障处理方法、装置及电子设备
本专利技术涉及分布式系统领域,更具体地,涉及一种分布式系统的故障处理方法、一种分布式系统的故障处理装置、一种电子设备、一种分布式系统的故障处理系统以及一种计算机可读存储介质。
技术介绍
分布式存储系统,是将数据分散存储在多台独立的设备上。传统的网络存储系统采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,也是可靠性和安全性的焦点,不能满足大规模存储应用的需要。分布式网络存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。对于大规模分布式存储而言机器的故障频率较高,需要人工判断故障,然后人工发单去维修,处理周期长无法监控与跟踪,自动化程度低。另外人工发现的时候往往机器已经无法登陆,不利于及时发现和处理故障。因此,有必要提出一种新的分布式系统的故障处理方案。
技术实现思路
本专利技术的一个目的是提供一种分布式系统的故障处理的新技术方案。根 ...
【技术保护点】
1.一种分布式系统的故障处理方法,应用于控制服务器,包括:/n接收所述分布式系统中的目标服务器发送的故障信息;/n根据所述故障信息确定所述目标服务器的故障类型;/n根据所述故障类型生成相应的维修任务并发送至维修业务终端;/n获取所述维修业务终端反馈的所述维修任务的执行进度;以及/n向所述目标服务器发送探活请求,以获取所述目标服务器的存活状态;/n如果所述存活状态为可登录状态,则向所述目标服务器发送初始化配置指令,以将所述目标服务器恢复工作状态;/n如果所述存活状态为非可登录状态并且所述执行进度为完成状态,则从所述分布式系统删除所述目标服务器。/n
【技术特征摘要】
1.一种分布式系统的故障处理方法,应用于控制服务器,包括:
接收所述分布式系统中的目标服务器发送的故障信息;
根据所述故障信息确定所述目标服务器的故障类型;
根据所述故障类型生成相应的维修任务并发送至维修业务终端;
获取所述维修业务终端反馈的所述维修任务的执行进度;以及
向所述目标服务器发送探活请求,以获取所述目标服务器的存活状态;
如果所述存活状态为可登录状态,则向所述目标服务器发送初始化配置指令,以将所述目标服务器恢复工作状态;
如果所述存活状态为非可登录状态并且所述执行进度为完成状态,则从所述分布式系统删除所述目标服务器。
2.根据权利要求1所述的方法,其中,如果所述存活状态为非可登录状态并且所述执行进度为完成状态,还包括:
停止对所述目标服务器进行状态监测。
3.根据权利要求1所述的方法,其中,所述故障类型包括系统盘故障、主机总线适配器故障、内存故障中的任意一种或者任意多种的组合。
4.一种分布式系统的故障处理方法,应用于所述分布式系统中的每个服务器,包括:
获取自身的故障信息;
将所述故障信息发送至控制服务器,以使所述控制服务器确定故障类型;
响应于所述控制服务器发送的探活请求,反馈自身的存活状态;
当自身的存活状态为可登录状态时,接收所述控制服务器发送的所述初始化配置指令;
响应于所述初始化配置指令,初始化自身的配置参数,以恢复为工作状态。
5.根据权利要求1所述的方法,其中,所述获取自身的故障信息,包括:
根据自身的系统日志和/或PCI总线信息获取所述故障信息。
6.一种分布式系统的故障处理装置,应用于控制服务器,包括:
故障信息接收模块,用于接收所述分布式系统中的目标服务器发送的故障信息;
故障分析模块,用于根据所述故障信息确定所述目标服务器的故障类型;...
【专利技术属性】
技术研发人员:魏子昂,
申请(专利权)人:北京金山云网络技术有限公司,北京金山云科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。