一种分布式集群可靠性管理方法、装置及设备制造方法及图纸

技术编号:36862520 阅读:13 留言:0更新日期:2023-03-15 18:40
本发明专利技术提出一种分布式集群可靠性管理方法、装置及设备。方法包括:根据单个服务器节点的互联处理器的并行总线的组数以及每组对应的单组误码率计算单个服务器节点的实际误码率,并与单个服务器节点的理论误码率比较;响应于单个服务器节点的实际误码率不大于单个服务器节点的理论误码率,在分布式集群中保留单个服务器节点;根据分布式集群中保留的服务器节点的数量以及对应的实际误码率计算分布式集群的实际误码率;将分布式集群的实际误码率与分布式集群的理论误码率进行比较,以判断分布式集群的可靠性。本发明专利技术公开的方案可以将分布式集群中处理器互联的可靠性进行量化,以判断分布式集群的可靠性。判断分布式集群的可靠性。判断分布式集群的可靠性。

【技术实现步骤摘要】
一种分布式集群可靠性管理方法、装置及设备


[0001]本专利技术涉及计算机
,尤其涉及一种分布式集群可靠性管理方法、装置及设备。

技术介绍

[0002]分布式存储系统与国产CPU的结合,已经应用到各类生活和办公场景。分布式存储系统采用可扩展系统架构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。与此同时,分布式存储系统能够应用于多种场景,在商业化模式的推动下,对于分布式存储系统的可靠性的要求也越来越高。
[0003]CPU的应用依赖于与CPU自身的配合以及与外围设备的兼容,涉及各类高速协议、低速协议以及数据格式要求的兼容。分布式存储系统底层的硬件设备是存储服务器,存储服务器不仅包含国产处理器,还需有对应的网卡、存储卡、存储设备、缓存设备,国产处理器在与外围设备做生态兼容时,会面临各种各样的接口协议的兼容问题。任何数据的传输错误都可能导致服务器运行异常,最终导致机器运行过程出现故障,加之国产CPU自身的生态建设及RAS特性不足,导致机器出现故障后,无法快速准确的定位,因此需要投入大量的设备、人力进行故障的检测以及问题分析。CPU互联信号的故障上报存在一定的缺失,比如在CPU互联信号出现异常时,服务器会概率性出现宕机,但缺乏对应的故障上报。
[0004]同时,服务器上使用的CPU一般是通过PCBA(Printed Circuit Board Assembly,服务器板卡)实现双路CPU互联,CPU通过与PCBA上的socket基座以及对应的机构件固定在PCBA上,并通过PCBA本身作为传输介质与PCBA上的另外一路CPU互联,一般是通过XGMII(10 Gigabit MediaIndependent Interface,高速并联总线)或者Serdes信号传输CPU之间的计算数据传输,一旦达到一定的误码阈值,服务器就可能产生宕机,进而影响分布式存储系统的可靠性。在实际生产中,CPU本身的批次、主板的PCBA质量、CPU与PCBA的接触性等多种因素,都可能导致CPU互联信号出现异常,这种异常短期内难以在生产线或者客户的应用表现出来,因此为后续的数据生产环境埋下巨大隐患。

技术实现思路

[0005]有鉴于此,本专利技术提出了一种分布式集群可靠性管理方法、装置及设备,其中,本专利技术提出的一种分布式集群可靠性管理方法通过同一个服务器节点的互联CPU的模式实现依次发送固定字符串,获取字符串的有效窗口并将有效窗口换算成实际眼图,按照实际眼图与理论眼图的比值计算单个服务器节点的实际误码率,根据分布式存储集群的高拓展性,将集群内的各个服务器节点对应的实际误码率等比换算,进而计算出分布式集群的CPU互联的实际误码率,通过将分布式集群的实际误码率与其对应的理论误码率进行比较,以判断分布式集群的可靠性。
[0006]基于以上目的,本专利技术的实施例的一个方面提供了一种分布式集群可靠性管理方
法,所述方法包括以下步骤:根据单个服务器节点的互联处理器的并行总线的组数以及每组对应的单组误码率计算所述单个服务器节点的实际误码率,并与所述单个服务器节点的理论误码率比较;响应于所述单个服务器节点的实际误码率不大于所述单个服务器节点的理论误码率,在所述分布式集群中保留所述单个服务器节点;根据所述分布式集群中保留的服务器节点的数量以及对应的实际误码率计算所述分布式集群的实际误码率;将所述分布式集群的实际误码率与所述分布式集群的理论误码率进行比较,以判断所述分布式集群的可靠性。
[0007]在一些实施例中,方法还包括:计算所述单个服务器节点的互联处理器的单组并行总线的实际眼图;通过所述单组并行总线的实际眼图与所述单组并行总线的理论眼图的比值得到所述单组并行总线对应的单组误码率。
[0008]在一些实施例中,所述计算所述单个服务器节点的互联处理器的单组并行总线的实际眼图包括:设置所述互联处理器的单组并行总线的发送端按照时钟周期发送固定数据。
[0009]在一些实施例中,所述计算所述单个服务器节点的互联处理器的单组并行总线的实际眼图还包括:通过所述单组并行总线的接收端分割所述时钟周期,并按照分割所述时钟周期的频率从所述固定数据中读取数据。
[0010]在一些实施例中,所述计算所述单个服务器节点的互联处理器的单组并行总线的实际眼图还包括:通过所述单组并行总线的接收端获取所述固定数据对应的有效窗口并转换为实际眼图。
[0011]在一些实施例中,所述设置所述互联处理器的单组并行总线的发送端按照时钟周期发送固定数据包括:将所述互联处理器设置为debug模式,根据所述debug模式设置所述单组并行总线的发送端按照时钟周期发送固定数据。
[0012]在一些实施例中,所述通过所述单组并行总线的接收端分割所述时钟周期,并按照分割所述时钟周期的频率从所述固定数据中读取数据包括:至少根据所述时钟周期和处理器的内存容量设置分割所述时钟周期的频率。
[0013]在一些实施例中,所述通过所述单组并行总线的接收端获取所述固定数据对应的有效窗口并转换为实际眼图包括:获取所述单组并行总线的接收端在每两个所述时钟周期内连续读取相同值的最大时间长度,并将所述最大时间长度换算为所述固定数据对应的有效窗口的宽度。
[0014]在一些实施例中,所述通过所述单组并行总线的接收端获取所述固定数据对应的有效窗口并转换为实际眼图还包括:根据所述固定数据对应的有效窗口的宽度计算转换后的实际眼图的宽度和高度,以得到所述固定数据对应的实际眼图。
[0015]在一些实施例中,所述通过所述单组并行总线的实际眼图与所述单组并行总线的理论眼图的比值得到所述单组并行总线的误码率包括:通过计算所述单组并行总线的实际眼图与所述单组并行总线的理论眼图的面积之比得到所述单组并行总线对应的单组误码率。
[0016]在一些实施例中,所述根据单个服务器节点的互联处理器的并行总线的组数以及每组对应的单组误码率计算所述单个服务器节点的实际误码率,并与所述单个服务器节点的理论误码率比较包括:根据所述单个服务器节点的互联处理器的并行总线的组数将每组
对应的单组误码率进行累加,得到所述单个服务器节点的实际误码率。
[0017]在一些实施例中,所述方法还包括:响应于所述单个服务器节点的实际误码率大于所述单个服务器节点的理论误码率,在所述分布式集群中去除所述单个服务器节点。
[0018]在一些实施例中,所述根据所述分布式集群中保留的服务器节点的数量以及对应的实际误码率计算所述分布式集群的实际误码率包括:通过所述分布式集群中保留的服务器节点的数量得到所述分布式集群的误码率参数,并根据所述误码率参数以及保留的每个服务器节点对应的实际误码率计算得到所述分布式集群的实际误码率。
[0019]在一些实施例中,所述将所述分布式集群的实际误码率与所述分布式集群的理论误码率进行比较,以判断所述分布式集群的可靠性包括:响应于所述分布式集群的实际误码率小于所述分布式集群的理论误码率,认定所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分布式集群可靠性管理方法,其特征在于,包括:根据单个服务器节点的互联处理器的并行总线的组数以及每组对应的单组误码率计算所述单个服务器节点的实际误码率,并与所述单个服务器节点的理论误码率比较;响应于所述单个服务器节点的实际误码率不大于所述单个服务器节点的理论误码率,在所述分布式集群中保留所述单个服务器节点;根据所述分布式集群中保留的服务器节点的数量以及对应的实际误码率计算所述分布式集群的实际误码率;将所述分布式集群的实际误码率与所述分布式集群的理论误码率进行比较,以判断所述分布式集群的可靠性。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:计算所述单个服务器节点的互联处理器的单组并行总线的实际眼图;通过所述单组并行总线的实际眼图与所述单组并行总线的理论眼图的比值得到所述单组并行总线对应的单组误码率。3.根据权利要求2所述的方法,其特征在于,所述计算所述单个服务器节点的互联处理器的单组并行总线的实际眼图包括:设置所述互联处理器的单组并行总线的发送端按照时钟周期发送固定数据。4.根据权利要求3所述的方法,其特征在于,所述计算所述单个服务器节点的互联处理器的单组并行总线的实际眼图还包括:通过所述单组并行总线的接收端分割所述时钟周期,并按照分割所述时钟周期的频率从所述固定数据中读取数据。5.根据权利要求4所述的方法,其特征在于,所述计算所述单个服务器节点的互联处理器的单组并行总线的实际眼图还包括:通过所述单组并行总线的接收端获取所述固定数据对应的有效窗口并转换为实际眼图。6.根据权利要求3所述的方法,其特征在于,所述设置所述互联处理器的单组并行总线的发送端按照时钟周期发送固定数据包括:将所述互联处理器设置为debug模式,根据所述debug模式设置所述单组并行总线的发送端按照时钟周期发送固定数据。7.根据权利要求4所述的方法,其特征在于,所述通过所述单组并行总线的接收端分割所述时钟周期,并按照分割所述时钟周期的频率从所述固定数据中读取数据包括:至少根据所述时钟周期和处理器的内存容量设置分割所述时钟周期的频率。8.根据权利要求5所述的方法,其特征在于,所述通过所述单组并行总线的接收端获取所述固定数据对应的有效窗口并转换为实际眼图包括:获取所述单组并行总线的接收端在每两个所述时钟周期内连续读取相同值的最大时间长度,并将所述最大时间长度换算为所述固定数据对应的有效窗口的宽度。9.根据权利要求8所述的方法,其特征在于,所述通过所述单组并行总线的接收端获取所述固定数据对应的有效窗口并转换为实际眼图还包括:根据所述固定数据对应的有效窗口的宽度计算转换后的实际眼图的宽度和高度,以得到所述固定数据对应的实际眼图。
10.根据权利要求2所述的方法,其特征在于,所述通过所述单组并行总线的实际眼图与所述单组并行总线的理论眼图的比值得到所述单组并行总线的误码率包括:通过计算所述单组并行总线的实际眼图与所述单组并行总线的理论眼图的面积之比得到所述单组并行总线对应的单组误码率。11.根据权利要求1所述的方法,其特征在于,所述根据单个服务器节点的互联处理器的并行总线的组数以及每组对应的单组误码率计算所...

【专利技术属性】
技术研发人员:杨学总
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1