当前位置: 首页 > 专利查询>EMC公司专利>正文

利用网络介质链接状态功能来提高计算机集群系统可用性的方法技术方案

技术编号:2873175 阅读:193 留言:0更新日期:2012-04-11 18:40
本发明专利技术用于计算机集群系统,本发明专利技术是一种当系统中一台服务器(220)运行失败时,用于增强另一台服务器(210)的可用性的方法。在集群系统中,每台服务器(210,220)都有一个附属的大容量存储设备(214,224),并且每台服务器(210,220)都可以处理来自集群系统中任何网络设备(230,240,250)的请求。在服务器(210,220)的大容量存储设备(214,224)中的数据互为镜像,这样每台服务器的大容量存储设备中都保存有整个集群系统数据的一个完整备份。建立数据镜像的过程通过服务器间的一个专用链路(202)实现,这样可以减少集群系统中其他部分发生拥塞的情况。当第一台服务器(210)检测到发生来自第二台服务器(220)的通讯数据丢失的情况时,第一台服务器(210)判断是否是由于专用链路(202)的故障导致了通讯数据丢失。如果专用链路(202)运行失败,第一台服务器停止运行,以避免将数据写入其相连的大容量存储设备(214),因为这些数据由于通讯的丢失将不能被建立镜像。如果专用链路(202)可以正常运行,第一台服务器(210)继续运行。在上述两种情况下,因为每台服务器(210,220)都可以处理来自任何网络设备(230,240,250)的请求,并且每台服务器都有整个网络数据的完整拷贝,因此,即使一台服务器被关闭,整个集群系统仍然可以正常使用。(*该技术在2021年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及计算机集群系统,特别涉及一种在集群系统内的服务器发生通讯丢失的情况下,提高计算机集群系统资源和数据的可用性和可靠性的方法。
技术介绍
一个典型的计算机集群包含两个或更多服务器以及一个或更多的网络设备,它们通过计算机网络互相之间进行通讯。计算机集群正常运行时,服务器为网络设备提供计算机资源以及存储和检索数据的场所。在现有的计算机集群配置中,计算机集群数据存储在共享的计算机磁盘上,并可被任何网络设备访问。一个典型的计算机集群如附图说明图1所示,其中两台网络服务器110和120通过计算机网络101与网络设备130,140和150通讯。网络服务器110和网络服务器120各自通过通讯线路105和106与共享磁盘104通讯。在使用计算机集群时,通常希望它能够提供计算机集群资源的持续可用性,特别是当计算机集群支持许多用户工作站,个人电脑,或其他网络客户端设备时。通常还希望它能够维持在计算机集群系统中各个不同文件服务器之间的数据一致性,以及维持这些数据对客户端设备的持续可用性。若想达到计算机集群资源和数据的可靠可用性,必须保证计算机集群可以承受软硬件问题或故障。采用冗余的计算机和大容量存储设备通常可以做到这些,这样在发生故障时,一个备份计算机或磁盘驱动器就可以马上接管系统工作。如图1所示,使用共享磁盘配置来实现计算机集群资源和数据的可靠可用性的现有技术,包含法定数额的概念,它指的是一种状态,在这种状态下,一台网络服务器将控制网络设备的指定最小数目;这样在其他任何网络服务器提供的服务发生中断时,持有法定数额的网络服务器拥有控制计算机集群资源和数据可用性的权利。一台特定的网络服务器获取法定数额的方法可以被描述成每台服务器和其他网络设备进行“投票表决”的过程。例如在如图1所示的有两台服务器的集群配置下,网络服务器110和网络服务器120各投一票以决定哪一台网络服务器可拥有法定数额。如果没有一台网络服务器可以获得大多数票,那么共享磁盘104将投一票,使得两台网络服务器110和120其中的一台可以获得大多数票,其结果是两服务器之一以一种可被了解和接受的方式取得法定数额。在任何时间,只能有一台服务器持有法定数额,这样保证在网络服务器110和120之间的通讯丢失的情况下,只有一台网络服务器可以获取对整个网络的完全控制。在发生中断事件时,试图使用法定数额以恢复网络服务器可用性的过程描述如下服务器110可以检测到与服务器120的通讯丢失,通常有两个原因。第一个原因是基于一种事件,例如服务器120的一次系统崩溃,这样服务器120将不能为网络客户提供网络资源。第二个原因是由于两台服务器间网络通讯基础结构101中断,此时服务器120仍然可以在网络中正常运行。如果服务器110不能与服务器120进行通讯,它的第一步操作就是判断自己是否持有法定数额。如果服务器110判断自己没有法定数额,那么它将向共享磁盘104发送一个命令请求其投票,以获得法定数额。如果共享磁盘104不投票给服务器110,那么服务器110将自行关闭以避免脱离服务器120的单独操作。在这种情况下,服务器110假定服务器120持有法定数额,并且服务器120继续控制整个计算机集群。然而,如果共享磁盘104投票给网络服务器110,该服务器将持有法定数额并取得对整个计算机集群的控制权,并继续工作,此时假定网络服务器120已经发生故障。在网络中发生故障时,使用法定数额以确保多个服务器中的一个可以继续提供网络资源的方法通常是令人满意的,但是共享磁盘的使用却让整个网络和磁盘上的数据面临丢失的危险。例如,如果不是网络服务器110和120其中之一,而是共享磁盘104发生故障,所有服务器都将不能工作,并且数据有可能永久丢失。此外,在使用共享磁盘配置的计算机集群中,服务器通常都放置在彼此很近的距离。这样,一旦发生自然灾害或电源故障,整个计算机集群都有崩溃的可能。
技术实现思路
本专利技术涉及一种在计算机集群系统中,可提高计算机集群资源和数据的可用性和可靠性的方法。两台服务器各自有一个与之相连的磁盘,并通过计算机网络进行通讯。每台服务器都可以为计算机网络中的所有网络设备提供计算机集群资源,并可访问整个计算机集群中的数据。在发生通讯丢失的情况下,每台服务器都具有判断通讯丢失原因和决定自己是否继续运行的能力。当一台网络服务器检测到与另一台网络服务器的通讯发生中断的情况时,通讯丢失的原因可以归结为通讯链路的故障或是另一台网络服务器的故障。由于每台网络服务器都拥有整个网络数据的完整镜像备份,在发生通讯丢失后,每台网络服务器上都会执行一系列动作,以确保网络服务器不会发生脱离另一台服务器而单独运行的情况。如果不执行这一系列动作,多台网络服务器会脱离其他服务器而各自单独运行,从而造成所不希望的“大脑分裂(split brain)”状况,网络服务器之间数据镜像的建立将不能正常执行,并因此导致潜在的数据损坏危险。当计算机集群开始工作时,一台服务器被指派可以控制集群的资源和数据,并被赋予“生存权”,使其在通讯链路发生故障并导致网络服务器之间的通讯丢失时可以继续对集群系统实施控制。为便于表达,在正常运行的情况下持有“生存权”的服务器,于此被指定为“主”服务器;在通常运转的情况下不持有“生存权”的服务器被指定为“从”服务器。要指出,此处的“主”和“从”不意味服务器之间彼此相对的重要性,同样也不是表明哪一个服务器主要负责为网络设备提供网络资源。在正常运行情况下,从提供网络资源的角度,主服务器和从服务器可以互换。在网络服务器之间的通讯发生丢失时,“生存权”作为一种缺省的协议,以确保“大脑分裂”的情况不会发生。当主服务器检测到通讯丢失时,它可以继续工作,因为它能够假定另外的从服务器发生了故障,不能正常运转。当从服务器检测到通讯丢失时,它所采取的一系列动作就比较复杂。它并不是简单地中止运行,而是进行推断通讯丢失是主服务器故障的结果,还是由于通讯链路的故障所导致的。如果通讯链路可以正常运转,从服务器就断定主服务器发生了故障。此种情况下,从服务器继续正常工作,并且不会造成发生“大脑分裂”问题的风险。然而,如果从服务器判断通讯链路出现故障,它就假定主服务器仍然能够正常运行。针对此种假设,从服务器停止工作以避免造成“大脑分裂”的情况。本专利技术的一个重要优点就是最初不持有“生存权”的从服务器,在能断定与主服务器之间的通讯丢失不是由于通讯链路故障造成的情况下,仍然可以继续工作。由于缺乏对通讯链路的分析,如果发生与主服务器通讯丢失的情况,要求从服务器能够自动关闭,以避免发生“大脑分裂”的问题。需要指明的是,在一个每台网络服务器都拥有专用磁盘镜像或大容量存储设备的计算机集群中,针对服务器间发生的通讯丢失情况,使用本专利技术中上述的方法可以增强计算机集群系统的可靠性和可用性;其原因在于当主服务器出现故障时,发生“大脑分裂”问题的可能性并不强制性要求从服务器必须离线。在每台网络服务器都拥有专用磁盘镜像的计算机集群中,常规的“法定数额”规则的应用通常并不理想。例如,如果拥有“法定数额”的网络服务器发生故障,就将不会有共享磁盘可以投票,以将“法定数额”重新分配给另一个网络服务器。其结果是,针对此类计算机集群,如果拥有“法定数额”的网络服务器发生故本文档来自技高网
...

【技术保护点】
一种提高包括通过通讯链路相连的第一服务器和第二服务器的计算机集群系统可用性和可靠性的方法,其中所述计算机集群中一旦出现中断的情况,所述第二服务器被赋予生存权;所述方法包括下列动作: 所述第一服务器检测从所述第二服务器到所述第一服务器的通讯丢失; 所述第一服务器分析通讯链路以确定通讯链路是否正常工作; 如果判定通讯链路能够正常工作,则所述第一服务器继续运行并承担生存权;以及 如果判定通讯链路不能正常工作,则所述第一服务器停止运行。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:丹尼尔M普里塞
申请(专利权)人:EMC公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利