一种计算机网络集群系统故障的诊断方法技术方案

技术编号:38080165 阅读:16 留言:0更新日期:2023-07-06 08:47
本发明专利技术涉及一种计算机网络集群系统故障的诊断方法,包括以下步骤:A、检测节点故障:a1、在集群节点之间的通信允许集群服务检测节点故障和状态改变并且将集群作为一个实体进行管理;a2、在节点到节点之间的通信中设立多重网络以便于消除单一点的故障;a3、在集群节点上运行的集群服务跟踪集群中节点的当前状态,并且确定组及其资源何时故障转移到备用节点上。该计算机网络集群系统故障的诊断方法,通过从3个方面对计算机网络集群系统故障进行诊断,诊断方向足够全面,能够快速、精准的定位到故障节点,并且给出了相应的解决方案,使得IT新手就能够上手解决这种计算机网络集群系统故障,大幅度降低了用人门槛和用人成本。大幅度降低了用人门槛和用人成本。

【技术实现步骤摘要】
一种计算机网络集群系统故障的诊断方法


[0001]本专利技术涉及计算机网络集群
,具体为一种计算机网络集群系统故障的诊断方法。

技术介绍

[0002]计算机集群是一

组计算机,如此一起工作使得它们可以作为一一个单一的系统中查看。与网格计算机不同,计算机集群将每个节点设置为执行相同的任务,由软件控制和调度。集群的组件通常通过快速局域网相互连接,每个节点(用作服务器的计算机)运行自己的操作系统实例。在大多数情况下,所有节点都使用相同的硬件和相同的操作系统,尽管在某些设置中(例如使用开源集群应用程序资源。
[0003]不同的操作系统可以用于每台计算机,或不同的硬件,通常部署集群是为了提高单台计算机的性能和可用性,同时通常比具有可比速度或可用性的单台计算机更具成本效计算机集群的出现是许多计算趋势融合的结果,包括低成本微处理器、高速网络和用于高性能分布式计算的软件的可用性,它们具有广泛的适用性和部署范围,从具有少量节点的小型企业集群到世界上一一些最快的超级计算机,例如IBM的红杉。在集群出现之前,具有模块化冗余的单机容错大型机受雇;但集群的前期成本较低,网络结构的速度提高,有利于集群的采用。
[0004]然而,与高可靠性大型机相比,集群的扩展成本更低,但错误处理的复杂性也增加了,因为集群中的错误模式对运行的程序并不透明,一旦出现故障,就需要计算机高手对故障进行排查、定位,不仅繁琐,而且用人门槛和用人成本大幅提升,因此,本申请提出了一种计算机网络集群系统故障的诊断方法。
专利技术内容
[0005]针对现有技术的不足,本专利技术提供了一种计算机网络集群系统故障的诊断方法,具备全面、快速定位、降低用人门槛,降低用人成本等优点。
[0006]为实现上述目的,本专利技术提供如下技术方案:一种计算机网络集群系统故障的诊断方法,包括以下步骤:
[0007]A、检测节点故障:
[0008]a1、在集群节点之间的通信允许集群服务检测节点故障和状态改变并且将集群作为一个实体进行管理;
[0009]a2、在节点到节点之间的通信中设立多重网络以便于消除单一点的故障;
[0010]a3、在集群节点上运行的集群服务跟踪集群中节点的当前状态,并且确定组及其资源何时故障转移到备用节点上;
[0011]其中,步骤a3中采用的通信以在每个节点的集群服务之间定期发送消息的形式进行,并将这些消息作为心跳信号;
[0012]a5、通过心跳信号,在每个节点上监察其他节点及它们的应用程序的可用性;
Alive”时间间隔内请求对资源的状态进行比“Looks Alive"间隔内所傲的更彻底的检查。
[0035]进一步,所述步骤b7中提到的“故障重试周期”属性的单位是ms,但按分钟顺序选择值;
[0036]另外,还可以选择比资源重新启动周期属性值大的或者相等的值并强制执行这个规则。
[0037]与现有技术相比,本专利技术提供了一种计算机网络集群系统故障的诊断方法,具备以下有益效果:
[0038]该计算机网络集群系统故障的诊断方法,通过从3个方面对计算机网络集群系统故障进行诊断,诊断方向足够全面,能够快速、精准的定位到故障节点,并且给出了相应的解决方案,使得IT新手就能够上手解决这种计算机网络集群系统故障,大幅度降低了用人门槛和用人成本。
具体实施方式
[0039]下面将结合本专利技术实施例,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0040]在本实施例中,一种计算机网络集群系统故障的诊断方法,包括以下3个大步骤:
[0041]第一个步骤A:检测节点故障。
[0042]a1、在集群节点之间的通信允许集群服务检测节点故障和状态改变并且将集群作为一个实体进行管理;
[0043]a2、在节点到节点之间的通信中设立多重网络以便于消除单一点的故障;
[0044]a3、在集群节点上运行的集群服务跟踪集群中节点的当前状态,并且确定组及其资源何时故障转移到备用节点上;
[0045]其中,步骤a3中采用的通信以在每个节点的集群服务之间定期发送消息的形式进行,并将这些消息作为心跳信号。
[0046]a5、通过心跳信号,在每个节点上监察其他节点及它们的应用程序的可用性;
[0047]a6、如果服务器设有对心跳通信并做出响应,则正常工作的服务器会启动故障转移过稳(包括对故障服务器拥有的资源和应用程序的所有权进行仲裁);
[0048]其中,仲裁是使用质询和辩护协议来执行的。
[0049]a7、如果某个节点似乎发生了故障,则会在给定的时间内允许它以几种方式中的任何一种表明它仍处于正常运行当中,并且可以向其他正常的节点通信;
[0050]a8、如果它无法证明自己正在正常运行,则此时会将它移出集群,并定位处故障点出来。
[0051]需要注意的是,在集群中,有多种事件都可能导致节点无法响应心跳消息。如计算机故障、网络接口故障、网络放障,甚于在可能是由于少有的高峰活动期。
[0052]因此,当所有节点进行通信时,配置数据库管理器会向每个节点发送全局性的配置数据库更新。而当心跳通信失败时,日志管理锦还会将配置数据库的变更保存到仲裁资源中。这保证了幸存的节点可以在恢复过程中访问最新的集群配置和本地节点的注册表数
据。
[0053]另外要注意的是,采用故障检测算法相当保守。
[0054]因此,它会尽量多地给那些明显发生故障的节点以质询的机会,然后才会进入故障转移过程。如果导致心跳响应失败的原因是暂时的,避免故障转移所可能造成的潜在影响当然是再好不过了。
[0055]但是,由于无法知道这样的节点还将沉默多长时间,故该节点可能遭受长时期的故障影响。因此,在经过一个合理的时间段后就应该启动故障转移过程。
[0056]第二个步骤B:检测资源故障,如果资源在当前主机节点上是不可操作的而且不能重新启动,则集群服务认为此资源发生了故障,应当让集群服务按以下方式检测资源故障。
[0057]b1、在周期性的时间间隔内,集群服务检查资源以了解资源是否可操作,并且集群服务通过定期调用资源监视器来完成此项任务;
[0058]b2、反之,资源监视器则依赖于每个资源的资源主动态链接库(DLL)执行一段过程以检测资源是否正常工作;
[0059]b3、资源DLL通过资源监视器将结果传给集群服务;
[0060]b4、如果资源DLL报告资源不可操作,那么集群服务会尝试重新启动资源;
[0061]b5、另外,可以指定集群服务在一给定时间间隅内尝试重新启动资源的次数,如果集群服务在指定的时间向陆内所做的尝试的数量超过了最大重新启动尝试次数,但是资源仍不可操作,那么集群服务会认为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种计算机网络集群系统故障的诊断方法,其特征在于:包括以下步骤:A、检测节点故障:a1、在集群节点之间的通信允许集群服务检测节点故障和状态改变并且将集群作为一个实体进行管理;a2、在节点到节点之间的通信中设立多重网络以便于消除单一点的故障;a3、在集群节点上运行的集群服务跟踪集群中节点的当前状态,并且确定组及其资源何时故障转移到备用节点上;其中,步骤a3中采用的通信以在每个节点的集群服务之间定期发送消息的形式进行,并将这些消息作为心跳信号;a5、通过心跳信号,在每个节点上监察其他节点及它们的应用程序的可用性;a6、如果服务器设有对心跳通信并做出响应,则正常工作的服务器会启动故障转移过稳(包括对故障服务器拥有的资源和应用程序的所有权进行仲裁);a7、如果某个节点似乎发生了故障,则会在给定的时间内允许它以几种方式中的任何一种表明它仍处于正常运行当中,并且可以向其他正常的节点通信;a8、如果它无法证明自己正在正常运行,则此时会将它移出集群,并定位处故障点出来;B、检测资源故障,如果资源在当前主机节点上是不可操作的而且不能重新启动,则集群服务认为此资源发生了故障,应当让集群服务按以下方式检测资源故障:b1、在周期性的时间间隔内,集群服务检查资源以了解资源是否可操作,并且集群服务通过定期调用资源监视器来完成此项任务;b2、反之,资源监视器则依赖于每个资源的资源主动态链接库(DLL)执行一段过程以检测资源是否正常工作;b3、资源DLL通过资源监视器将结果传给集群服务;b4、如果资源DLL报告资源不可操作,那么集群服务会尝试重新启动资源;b5、另外,可以指定集群服务在一给定时间间隅内尝试重新启动资源的次数,如果集群服务在指定的时间向陆内所做的尝试的数量超过了最大重新启动尝试次数,但是资源仍不可操作,那么集群服务会认为资源出了故障;b6、同时,可以配置是否故障资源引起包含该资源的组故障转移到其他节点;b61、如果故障资源配肯为引起包含该资源的组故障转移到其他节点,那么集群服务将尝试故障转移;b62、如果故障转移尝试次数坦过组的阙值而资源仍然处在故障状态,则集群服务将...

【专利技术属性】
技术研发人员:张勇
申请(专利权)人:上海昊帆信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1