分布式文件系统的故障处理方法及相关设备技术方案

技术编号:19778404 阅读:22 留言:0更新日期:2018-12-15 11:20
本申请实施例公开了一种分布式文件系统的故障处理方法及相关设备,该分布式文件系统中包含有至少一个监控服务Mon,用于提高了故障定位的效率。本申请实施例方法包括:获取所述至少一个Mon中各个Mon的状态信息,所述状态信息用于描述Mon在运行过程中产生的各种属性信息;根据所述状态信息,判断所述各个Mon中是否存在预设故障类型的目标Mon;若存在所述预设故障类型的目标Mon,执行与所述预设故障类型对应的故障处理程序。

【技术实现步骤摘要】
分布式文件系统的故障处理方法及相关设备
本申请涉及文件系统领域,尤其涉及一种分布式文件系统的故障处理方法及相关设备。
技术介绍
计算机通过文件系统管理和存储数据,而信息爆炸时代中,由于可以获取到的数据成指数倍的增长,单纯通过增加硬盘个数来扩展计算机文件系统的存储容量的方式,在数据存储和管理方面的表现都差强人意。分布式文件系统可以有效解决上述问题:将固定于某个地点的某个文件系统,扩展到任意多个地点/多个文件系统,众多的存储节点组成一个文件系统网络。每个存储节点可以分布在不同的地点,通过网络进行存储节点间的通信和数据传输。在分布式文件系统中配置有监控服务(monitor,Mon),Mon用于监控分布式文件系统的状态,同时辅助维护状态的变化。Mon采用集群模式,每个存储节点上都配置有Mon,为了保证Mon无单点故障,需要保证Mon的数量为奇数,在部署2×N+1个Mon时,系统最多允许N个Mon同时出现故障。在现有技术提供的文件系统中,当集群中某一Mon出现故障时,需要由现场人员向研发人员描述从故障开始的各个操作,再逐个排除导致故障的各个操作,最终经过测试复现故障状态,才能获知故障原因,上述由研发人员现场进行Mon故障定位的方式,耗费时间长,故障定位效率低下。
技术实现思路
本申请实施例提供了一种分布式文件系统故障处理方法,用于提高故障定位的效率。第一方面,本申请实施例提供一种分布式文件系统的故障处理方法,该分布式文件系统中包含有至少一个Mon,该方法包括:获取至少一个Mon中各个Mon的状态信息,该状态信息用于描述Mon在运行过程中产生的各种属性信息;根据该状态信息,判断该各个Mon中是否存在预设故障类型的目标Mon;若存在预设故障类型的目标Mon,执行与该预设故障类型对应的故障处理程序。第二方面,本申请实施例还提供一种分布式文件系统,该分布式文件系统中包含有至少一个Mon,该分布式文件系统包括:获取单元,用于获取该至少一个Mon中各个Mon的状态信息,该状态信息用于描述Mon在运行过程中产生的各种属性信息;判断单元,用于根据该状态信息,判断该各个Mon中是否存在预设故障类型的目标Mon;执行单元,用于当存在该预设故障类型的目标Mon时,执行与该预设故障类型对应的故障处理程序。第三方面,本申请实施例提供一种服务器,所述服务器包括:处理器和存储器,所述存储器中存储有前述第一方面中所述的分布式文件系统的故障处理的指令;所述处理器用于执行存储器中存储的分布式文件系统的故障处理的指令,执行如前述第一方面中所述的分布式文件系统的故障处理方法的步骤。第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有分布式文件系统的故障处理的指令,当其在计算机上运行时,使得计算机执行前述第一方面中所述的分布式文件系统的故障处理方法的步骤。从以上技术方案可以看出,本申请实施例具有以下优点:根据各个Mon的状态信息,判断各个Mon中是否存在预设故障类型的目标Mon,当存在预设故障类型的目标Mon时,则执行对应的故障处理程序。也即当Mon出现故障时,只要发生的故障为预设的故障类型,不再需要现场人员配合研发人员进行现场Mon故障定位,根据各个Mon的状态信息即可确定故障类型,提高了故障定位的效率,且在对故障定位后执行对应的故障处理程序,提高了整个故障处理过程的效率。附图说明图1为本申请实施例提供的分布式文件系统的结构示意图;图2为本申请实施例提供的分布式文件系统的故障处理方法的一种流程示意图;图3为本申请实施例提供的分布式文件系统的故障处理方法的另一种流程示意图;图4为本申请实施例提供的分布式文件系统的故障处理方法的又一种流程示意图;图5为本申请实施例提供的分布式文件系统的故障处理方法的再一种流程示意图;图6为本申请实施例提供的分布式文件系统的故障处理方法的另一种流程示意图;图7为本申请实施例提供的分布式文件系统的故障处理方法的又一种流程示意图;图8为本申请实施例提供的分布式文件系统的一种结构示意图;图9为本申请实施例提供的服务器的一种结构示意图。具体实施方式本申请实施例提供了一种分布式文件系统的故障处理方法,用于提高故障定位的效率。本申请实施例还提供了相应的分布式文件系统、服务器及计算机可读存储介质。以下分别进行详细说明。如图1所示,分布式文件系统由多个存储节点10组成,多个存储节点10可以分布于同一地点,也可以分布于任意多个地点,多个存储节点10之间通过网络20进行通信和数据传输。其中,分布式文件系统包括浪潮分布式存储系统ICFS系统、大规模分散文件系统(googlefilesystem,GFS)、集群文件系统Lustre或其他分布式文件系统等,在本实施例及后续实施例中,仅以分布式文件系统为ICFS系统为例进行说明。网络20可以是有线网络或无线网络,无线网络可以是WAN(广域网)、无线网络、点对点网络、星形网络、令牌环网络或其它无线网络等,在本申请实施例中不受限制。为了监控分布式文件系统的状态,每个存储节点10上均配置有Mon,也即与每个存储节点10对应有Mon节点,各个Mon之间能够进行通信连接,形成一个Mon集群。该各个Mon用于监控系统的各个存储节点10提供的数据服务和元数据服务(MetaDataService,MDS)状态是否正常。下面对本申请中的分布式文件系统的故障处理方法进行详细描述,请参阅图2,本申请实施例提供的一种分布式文件系统的故障处理方法实施例包括:201、服务器获取该至少一个Mon中各个Mon的状态信息。本实施例中,由于分布式文件系统中包含有至少一个Mon,在该至少一个Mon中各个Mon运行过程中,会产生各种属性信息。该分布式文件系统的服务器预存有各个Mon的状态信息,该状态信息用于描述Mon在运行过程中产生的上述各种属性信息。其中,Mon的状态信息可以包括健康状态信息,例如时钟迟延;也可以包括运行状态信息,例如运行状态为活跃up或者停止down;还可以包括存储状态信息,例如存储装置的剩余空间、存储位置,还可以包括其他类型的状态信息等,具体此处不再一一赘述。本实施例中,服务器可根据接收到的指令,获取该各个Mon的状态信息,作为示例,例如当服务器接收到icfsmondump指令时,获取预存的各个Mon的状态信息,以检测各个Mon的运行状态;服务器也可根据接收到的其他指令获取各个Mon的状态信息,具体此处不做限定。服务器也可以根据服务器的设定,获取该各个Mon的状态信息,作为示例,例如每隔固定时长获取一次Mon的状态信息,例如每隔24小时获取一次;作为另一示例,例如在固定的时间点获取,例如每天早上8点获取各个Mon的状态信息等,应当理解,此处对触发服务器获取各个Mon的状态信息的举例仅为方便理解本方案,具体实现方式应结合实际需求灵活设定。202、服务器根据该状态信息,判断该各个Mon中是否存在预设故障类型的目标Mon,若存在预设故障类型的该目标Mon,进入步骤203;若不存在预设故障类型的该目标Mon,进入步骤204。本实施例中,服务器中预先设定有与预设故障类型对应的故障判断条件,服务器在获取到各个Mon的状态信息后,依次判断该各个Mon的状态信息是否满足预设的故障判断条件,当目标M本文档来自技高网...

【技术保护点】
1.一种分布式文件系统的故障处理方法,其特征在于,所述分布式文件系统中包含有至少一个监控服务Mon,所述方法包括:获取所述至少一个Mon中各个Mon的状态信息,所述状态信息用于描述Mon在运行过程中产生的各种属性信息;根据所述状态信息,判断所述各个Mon中是否存在预设故障类型的目标Mon;若存在所述预设故障类型的目标Mon,执行与所述预设故障类型对应的故障处理程序。

【技术特征摘要】
1.一种分布式文件系统的故障处理方法,其特征在于,所述分布式文件系统中包含有至少一个监控服务Mon,所述方法包括:获取所述至少一个Mon中各个Mon的状态信息,所述状态信息用于描述Mon在运行过程中产生的各种属性信息;根据所述状态信息,判断所述各个Mon中是否存在预设故障类型的目标Mon;若存在所述预设故障类型的目标Mon,执行与所述预设故障类型对应的故障处理程序。2.根据权利要求1所述的方法,其特征在于,所述状态信息包括时钟迟延,所述预设故障类型包括时钟漂移,所述目标Mon包括第一Mon,所述判断所述各个Mon中是否存在预设故障类型的目标Mon包括:判断所述各个Mon中是否存在所述时钟迟延超过预设阈值的所述第一Mon;若存在,则确定存在所述时钟漂移的所述第一Mon;所述执行与所述预设故障类型对应的故障处理程序包括:关闭所述第一Mon所在的所述分布式文件系统的防火墙;对所述各个Mon设置时钟同步。3.根据权利要求1所述的方法,其特征在于,所述状态信息包括运行状态,所述故障类型包括Mon震荡,所述目标Mon包括第二Mon,所述判断所述各个Mon中是否存在预设故障类型的目标Mon包括:在预设时长内,判断所述各个Mon中是否存在所述运行状态的切换次数超过预设阈值的所述第二Mon;若存在,则确定存在所述Mon震荡的所述第二Mon;所述执行与所述预设故障类型对应的故障处理程序包括:将与所述第二Mon对应的部署目录修改为与第一固态硬盘对应的部署目录;修改所述第二Mon的心跳检测频率。4.根据权利要求1所述的方法,其特征在于,所述状态信息包括运行状态,所述故障类型包括Mon停止,所述目标Mon包括第三Mon,所述判断所述各个Mon中是否存在预设故障类型的目标Mon包括:判断所述各个Mon中是否存在所述运行状态为停止的时长超过预设阈值的所述第三Mon;若存在,则确定存在所述Mon停止的所述第三Mon;所述执行与所述预设故障类型对应的故障处理程序包括:获取所述第三Mon监控的存储节点;删除所述第三Mon;在所述存储节点上...

【专利技术属性】
技术研发人员:徐晓阳
申请(专利权)人:郑州云海信息技术有限公司
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1