【技术实现步骤摘要】
一种分布式存储系统的故障诊断方法与装置
本专利技术涉及分布式系统数据处理
,更具体的涉及一种分布式存储系统的故障诊断方法与装置。
技术介绍
传统的网络存储系统采用集中的存储服务器存放所有数据,但是集中存储服务器的存储空间有限,不能满足大规模存储应用的需要。分布式网络存储系统采用可扩展的系统结构,将数据分散存储在多台独立的设备上,利用多台存储服务器分散存储数据的限制,为大规模数据存储提供了解决方案。但是在分布式存储系统中,当运行数据的进程(数据运行进程)出现故障时,如果不能及时发现故障并将运行数据迁移到其他设备中,服务就会停止,服务可用性较差。基于上述内容可知,发现运行数据的进程是否发生故障,并在进程发生故障时及时进行数据迁移是保证服务可用性的关键。这里以基于Hbase框架的分布式存储系统为例,介绍进程故障的检测原理。在Hbase框架中,主要包含四个部分:Client节点、Master节点、ZooKeeper节点和RegionServer进程。在实际操作中,真正运行数据提供服务的是RegionServer进程,当RegionServer进程启动时会在ZooKe ...
【技术保护点】
一种分布式存储系统的故障诊断方法,其特征在于,所述方法包括:监控进程根据待检测数据运行进程的注册信息获取所述数据运行进程标识;监控进程检测所述标识对应的数据运行进程在终端设备上是否存在,若不存在,则监控进程确定所述数据运行进程发生故障。
【技术特征摘要】
1.一种分布式存储系统的故障诊断方法,其特征在于,所述方法包括:监控进程获取待检测数据运行进程的注册信息,根据待检测数据运行进程的注册信息获取所述数据运行进程标识;监控进程检测所述标识对应的数据运行进程在终端设备上是否存在,若不存在,则监控进程确定所述数据运行进程发生故障;监控进程确定所述数据运行进程发生故障后,删除所述数据运行进程对应的注册信息。2.根据权利要求1所述的方法,其特征在于,所述数据运行进程的标识为所述数据运行进程的名称时,所述监控进程检测所述标识对应的数据运行进程在终端设备上是否存在,包括:在终端设备运行进程列表中查找所述数据运行进程的名称,若未查找到,则所述数据运行进程不存在。3.根据权利要求1所述的方法,其特征在于,所述数据运行进程的标识为所述数据运行进程的编号时,所述监控进程检测所述标识对应的数据运行进程在终端设备上是否存在,包括:根据所述数据运行进程的编号获取该数据运行进程在终端设备上的运行端口;若所述运行端口未被占用,则确定所述数据运行进程不存在。4.根据权利要求1所述的方法,其特征在于,所述数据运行进程的标识为所述数据运行进程所在设备的IP地址和为该进程分配的端口时,所述监控进程检测所述标识对应的数据运行进程在终端设备上是否存在,包括:在所述IP地址对应的终端设备上检测为所述数据运行进程分配的端口是否空闲,若是,则确定所述数据运行进程不存在。5.根据权利要求1所述的方法,其特征在于,所述监控进程为本地监控进程和/或远程监控进程,当所述数据运行进程所在的终端设备宕机时,则具体由远程监控进程执行所述删除所述数据运行进程对应的注册信息的步骤。6.根据权利要求1所述的方法,其特征在于,删除所述数据运行进程对应的注册信息之前,还包括:对所述数据运行进程的注册信息版本号进行校验,以防止RegionServer进程的误删除。7.根据权利要求1所述的方法,其特征在于,所述数据运行进程对应的注册信息被删除后,所述方法还包括:触发ZooKeeper节点的回调机制,以使Master节点启动故障处理流程。8.根据权利要求1-7任一项所述的方法,其特征在于,所述方法还包括:若监控进程出现故障,则通过系统的心跳机制进...
【专利技术属性】
技术研发人员:张阜兴,李剑宇,
申请(专利权)人:北京搜狐新媒体信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。