分布式存储系统的节点异常的定位方法、装置和系统制造方法及图纸

技术编号:19176866 阅读:27 留言:0更新日期:2018-10-17 00:16
本发明专利技术公开了一种分布式存储系统的节点异常的定位方法、装置和系统。该定位方法包括:收集分布式存储系统中存储节点的状态信息;计算存储节点的状态信息的相对值,并将状态信息与状态信息的相对值进行比较,评估存储节点的健康状态;根据存储节点的健康状态的评估结果,定位分布式存储系统中的异常节点。根据本发明专利技术实施例提供的定位方法,可以在出现业务异常时快速定位到出现异常的节点。

Method, device and system for locating abnormal nodes in distributed storage system

The invention discloses a node positioning method, device and system for a distributed storage system. This localization method includes: collecting the state information of storage node in distributed storage system; calculating the relative value of the state information of storage node; comparing the relative value of the state information with the state information to evaluate the health status of storage node; locating the distributed memory according to the evaluation result of the health status of storage node Abnormal nodes in the storage system. According to the positioning method provided by the embodiment of the present invention, the abnormal node can be quickly positioned when the abnormal service occurs.

【技术实现步骤摘要】
分布式存储系统的节点异常的定位方法、装置和系统
本专利技术涉及分布式存储系统维护领域,尤其涉及分布式存储系统的节点异常的定位方法。
技术介绍
在分布式存储系统中,为保证数据均衡和有效避免热点出现,数据采用全打散的方式存储在系统各个存储节点中。当某个节点的业务处理出现某些非物理硬件故障的异常,例如存储节点CPU被其他程序占满导致输入输出处理异常、某存储节点的磁盘或者固态硬盘出现故障导致输入输出处理很慢、或者某个存储节点的网络出现降速等情况时,将导致整个系统输入输出处理出现异常。目前在这种分布式系统中定位某个节点出现业务异常时,通常需要专业维护人员,通过查找日志,观察各个节点的CPU、内存以及网络流量等参数,来进行排查分析。但在大规模集群环境下,节点数量可能达到上万个,这些节点会产生巨大的日志量,如果依赖人工方式在巨大的日志量中搜索关键信息,将大大影响问题定位的时间。
技术实现思路
本专利技术实施例提供一种分布式存储系统的节点异常的定位方法、装置和系统,可以在出现业务异常时快速定位到异常的节点。根据本专利技术实施例的一方面,提供一种分布式存储系统的节点异常的定位方法,该定位方法包括:收集分布式存储系统中存储节点的状态信息;计算存储节点的状态信息的相对值,并将状态信息与状态信息的相对值进行比较,评估存储节点的健康状态;根据存储节点的健康状态的评估结果,定位分布式存储系统中的异常节点。根据本专利技术实施例的另一方面,提供一种分布式存储系统的节点异常的定位装置,该定位装置包括:状态信息收集模块,用于收集分布式存储系统中存储节点的状态信息;健康状态评估模块,用于计算存储节点的状态信息的相对值,并将状态信息与状态信息的相对值进行比较,评估存储节点的健康状态;节点异常定位模块,用于根据存储节点的健康状态的评估结果,定位分布式存储系统中的异常节点。根据本专利技术实施例的再一方面,提供一种分布式存储系统的节点异常的定位系统,该定位系统包括:存储器、处理器、通信接口和总线;存储器、处理器和通信接口通过总线连接并完成相互间的通信;存储器用于存储程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于执行一种分布式存储系统的节点异常的定位方法,其中,该分布式存储系统的节点异常的定位方法包括:收集分布式存储系统中存储节点的状态信息;计算存储节点的状态信息的相对值,并将状态信息与状态信息的相对值进行比较,评估存储节点的健康状态;根据存储节点的健康状态的评估结果,定位分布式存储系统中的异常节点。根据本专利技术实施例的分布式存储系统的节点异常的定位方法、装置和系统,通过节点间相对值比较的方法进行分布式存储系统节点健康的评估,在节点出现异常的情况下快速进行问题定位。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是示出根据本专利技术一实施例的分布式存储系统的节点异常的定位方法的流程图;图2是图1中评估存储节点的健康状态的具体的流程图;图3是示出根据本专利技术实施例的根据评估结果定位异常节点的第一示例性流程图;图4是示出根据本专利技术实施例的根据评估结果定位异常节点的第二示例性流程图;图5示出了根据本专利技术一实施例的分布式存储系统的节点异常的定位装置的结构示意图;图6示出了图5中节点异常定位模块的具体地结构示意图;图7是示出了根据本专利技术另一实施例的分布式存储系统的节点异常的定位装置的结构示意图;图8是示出能够实现根据本专利技术实施例的分布式存储系统的节点异常的定位方法和装置的分布式存储系统的节点异常的定位系统的硬件架构示意图。具体实施方式下面将详细描述本专利技术的各个方面的特征和示例性实施例,为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本专利技术,并不被配置为限定本专利技术。对于本领域技术人员来说,本专利技术可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本专利技术的示例来提供对本专利技术更好的理解。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。下面结合附图,详细描述根据本专利技术实施例的分布式存储系统的节点异常的定位方法、装置和系统。应注意,这些实施例并不是用来限制本专利技术公开的范围。图1是示出根据本专利技术实施例的分布式存储系统的节点异常的定位方法的流程图。如图1所示,本实施例中的分布式存储系统的节点异常的定位方法100包括以下步骤:步骤S110,收集分布式存储系统中存储节点的状态信息。步骤S120,计算存储节点的状态信息的相对值,并将状态信息与状态信息的相对值进行比较,评估存储节点的健康状态。步骤S130,根据存储节点的健康状态的评估结果,定位分布式存储系统中的异常节点。根据本专利技术实施例的分布式存储系统的节点异常的定位方法,利用节点相对值比较的方法进行分布式系统存储节点健康评估,出现业务异常时可以快速定位到出现问题的节点,有效避免节点出现问题不能迅速排查到问题节点时造成的业务长时间中断。在步骤S110中,为了快速定位到某个节点的某个进程出现问题,可以采集存储节点的状态信息。作为示例,存储节点的状态信息包括如下项中的一种或一种以上:存储节点的系统资源使用信息、存储节点的磁盘的输入输出读写信息、存储节点的固态硬盘的输入输出读写信息、存储节点的输入输出类异常信息。具体地,针对抢占不到物理资源的情况,需要观察存储节点的系统资源使用信息可以包括:存储节点运行的进程数量、CPU使用情况、内存使用情况、节点网卡收发包情况等。具体地,针对磁盘出现异常,可以观察对比存储节点的磁盘的输入输出读写信息可以包括:该磁盘处理读写数据的数据量、平均处理读写请求的等待时间、磁盘的CPU使用情况等。具体地,针对固态硬盘出现异常,可以观察对比存储节点的固态硬盘的输入输出读写信息可以包括:该固态硬盘处理读写数据的数据量、平均处理读写请求的等待时间、固态硬盘的CPU使用情况等。具体地,针对网络出现频繁丢包的情况,可以通过要求业务进程将存储节点的处理异常的输入输出类信息输出到一个日志文件中。作为记录存储节点输入输出类处理异常信息的一个具体示例,存储节点A发送请求给存储节点B,重发超过5次B都未响应时,记录存储节点A的关于读写的源端信息、目标端信息、以及重试次数,并将记录的这些状态信息输出到统计信息文件中。在一些实施例中,对存储节点的状态信息进行统计和收集可以使用一些统计生成和收集工具,这些工具可以定期调用系统命令,例如调用top、ps、iostat、sar等系统命令来查询存储节点的状态信息,并将运行上述系统命令得到的查询结构输出到指定的存储目录上。并且,存储节点的业务进程还可以将一些异常输入输入(IO)信息本文档来自技高网...

【技术保护点】
1.一种分布式存储系统的节点异常的定位方法,其特征在于,所述定位方法包括:收集分布式存储系统中存储节点的状态信息;计算所述存储节点的状态信息的相对值,并将所述状态信息与所述状态信息的相对值进行比较,评估所述存储节点的健康状态;根据所述存储节点的健康状态的评估结果,定位所述分布式存储系统中的异常节点。

【技术特征摘要】
1.一种分布式存储系统的节点异常的定位方法,其特征在于,所述定位方法包括:收集分布式存储系统中存储节点的状态信息;计算所述存储节点的状态信息的相对值,并将所述状态信息与所述状态信息的相对值进行比较,评估所述存储节点的健康状态;根据所述存储节点的健康状态的评估结果,定位所述分布式存储系统中的异常节点。2.根据权利要求1所述的定位方法,其特征在于,所述存储节点的状态信息包括如下项中的一种或一种以上:所述存储节点的系统资源使用信息、所述存储节点的磁盘的输入输出读写信息、所述存储节点的固态硬盘的输入输出读写信息、所述存储节点的输入输出类异常信息;所述存储节点的健康状态包括如下项中的一种或一种以上:所述存储节点的系统资源使用信息对应的存储节点的进程健康状态、所述存储节点的磁盘的输入输出读写信息对应的磁盘的健康状态、所述存储节点的固态硬盘的输入输出读写信息对应的固态硬盘的健康状态、所述存储节点的输入输出类异常信息对应的存储节点间网络连接的健康状态。3.根据权利要求1所述的定位方法,其特征在于,所述计算所述存储节点的状态信息的相对值,并将所述状态信息与所述状态信息的相对值进行比较,评估所述存储节点的健康状态,包括:将所述存储节点的状态信息汇总到统计信息汇总节点;在所述统计信息汇总节点上,根据所述存储节点的状态信息生成所述存储节点的分析任务;采用大数据分析方式,将所述存储节点的分析任务发送到大数据分析集群,所述大数据分析集群包括多个分析节点,每个分析节点包括一个或一个以上存储节点的分析任务;获取所述大数据分析集群中每个分析节点中的分析任务,根据预设的规则,计算所述分析任务对应的存储节点的状态信息的相对值,并将所述状态信息与所述状态信息的相对值进行对比,评估所述存储节点的健康状态。4.根据权利要求1所述的定位方法,其特征在于,所述根据所述存储节点的健康状态的评估结果,定位所述分布式存储系统中的异常节点,包括:将所述存储节点的健康状态的评估结果记录在历史统计信息数据库中;当所述分布式存储系统出现周期性业务异常波动时,查询所述历史统计信息数据中指定时间周期内的存储节点的健康状态的评估结果,定位所述分布式存储系统中的节点异常。5.根据权利要求1所述的定位方法,其特征在于,所述根据所述存储节点的健康状态的评估结果,定位所述分布式存储系统中的异常节点,包括:获取分布式存储系统中存储节点的拓扑信息;在所述存储节点的拓扑信息中显示所述存储节点的健康状态的评估结果,定位所述分布式存储系统中的节点异常。6.一种分布式存储系统的节点异常的定位装置,其特征在于,所述定位装置包括:状态信息收集模块,用于收集分布式存储系统中存储节点的状态信息;健康状态评估模块,用于计算所述存储节点的状态信息的相对值,并将所述状态信息与所述状态信息的相对值进行比较,评估所述存储节点的健康状态;节点异常定位模块,用于根据所述存储节点的健康状态的评...

【专利技术属性】
技术研发人员:蔡陆滨
申请(专利权)人:中国移动通信集团福建有限公司中国移动通信集团公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1