利于计算机环境的错误处理的方法与系统技术方案

技术编号:2868359 阅读:204 留言:0更新日期:2012-04-11 18:40
利于计算环境的错误处理,包括具有文件系统的环境。响应于该计算环境的实体,比如文件系统的客户机,获得至少错误指示,自动冻结该实体的一部分功能。该获得比如响应于该计算环境的另一实体的事件,该另一实体比如是该文件系统的服务器。最后,解冻所冻结的功能,从而允许该功能继续。

【技术实现步骤摘要】

本专利技术一般地涉及计算环境中的处理,尤其涉及管理环境的错误。
技术介绍
在各种类型的计算环境下可能出现许多类型的错误。例如,在向磁盘传播数据的环境下,错误会出现在传播中。例如,在具有比如连接到一个或多个服务器的一个或多个客户机的文件系统环境中,客户机的数据最初在客户机本身缓冲,然后最终刷新到一个或多个存储装置,比如一个或多个磁盘。如果出现故障,比如硬件故障或服务器崩溃,就会有永远无法将数据写到磁盘的可能。而且,如果其数据将被写入磁盘的应用程序在将数据存储于磁盘之前已经退出,就会有该应用程序并不知道数据丢失的可能。虽然有精心安排的措施确保将数据提交到磁盘,仍然会出现导致数据丢失的情况。因此,需要一种用以处理计算环境的这些错误的能力。举例来说,需要一种可响应于错误而自动冻结(freeze)计算实体的至少一部分功能的能力。
技术实现思路
通过提供一种利于计算环境的错误处理的方法,克服现有技术的缺陷,并提供附加优点。该方法比如包括由计算环境的实体至少获得响应于计算环境另一实体的事件的错误的指示,其中该另一实体远离该实体;和响应于该获得而自动冻结该实体的一部分功能。在本专利技术另一方面,提供一种管理计算环境的处理的方法。该方法比如包括通过计算环境的实体检测该实体的处理受到影响的状态;和响应于该检测,自动冻结该实体的一个或多个分布式输入/输出(I/O)操作,其中允许该实体的一个或多个其他操作继续。也描述了对应于上述概括的方法的系统和计算机程序产品,并且对其提出权利要求。通过本专利技术的技术实现了附加特征和优点。这里详细描述了本专利技术的其他实施例和方面,并将它们考虑为本专利技术的一部分。附图说明在说明书所附的权利要求中具体指出被认为是本专利技术的主题,并且在本说明书后面的权利要求书中对其明确提出权利要求。根据结合附图的如下详细描述,可以理解本专利技术的上述和其他目的、特征和优点,在附图中图1a描述了引入和使用本专利技术的一个或多个方面的计算环境的 具体实施例方式概述根据本专利技术的一个方面,响应于关键状态,比如潜在的数据丢失,自动冻结计算环境的一部分功能。在一个特定实例中,该计算环境包括客户/服务器文件系统,并且冻结的部分功能包括客户机在该文件系统中的一个或多个文件系统操作。该客户机(或计算环境的其他实体)的功能的冻结包括改变该客户机(或其他实体)的一个或多个线程的行为。在本专利技术另一方面,提供用于解冻该冻结功能的能力。解冻和冻结发生无需文件系统的卸载(unmount)或重装(remount)(或重启将要冻结和解冻的实体)。详细说明参照图1a,描述引入和使用本专利技术一个或多个方面的计算环境的实施例。计算环境100比如包括经由连接106连接到另一计算单元104的计算单元102。计算单元比如包括,个人计算机、膝上型计算机、工作站、大型计算机、小型计算机或任何其他类型的计算单元。计算单元102可以和计算单元104类型相同或不同。连接单元的连接是有线连接或任何其他类型的网络连接,比如局域网(LAN)、广域网(WAN)、令牌环、以太网连接、互联网连接等。在一个实例中,每个计算单元执行操作系统108,比如纽约Armonk的国际商用机器公司提供的z/OS操作系统;UNIX操作系统,比如AIX;Linux;Windows;或其他操作系统等。计算单元的操作系统可以彼此相同或不同。而且,在其他实例中,一个或多个计算单元可以不包括操作系统。在一个实施例中,计算单元102包括客户机应用程序(即客户机)110,其连接到计算单元104上的服务器应用程序(即服务器)112。客户机10比如在将应用程序连接的TCP/IP链路上通过网络文件系统协议(NFS)与服务器112通信。而且,一个或多个用户应用程序114可以在至少一个计算单元上执行。在一个特定实施例中,该环境包括一文件系统(图1b),比如分布式文件系统,在该系统中,利用存储区域网络116以利于一个或多个客户机110和一个或多个服务器112通过高速链路存取一个或多个存储装置118。存储区域网络的使用允许提供高性能的分布式文件系统,该系统允许客户机直接从存储装置获得数据,而不是通过代表它们进行读写的远端服务器来存取数据。在分布式文件系统中,在客户机计算单元上运行的应用程序访问文件系统命名空间(namespace),该应用程序比如包括用户应用程序、客户机应用程序等,该命名空间比如分布于一个或多个计算单元上。该命名空间包括应用程序可访问的一个或多个文件系统对象。在一个实例中,将该命名空间组织为树形结构,并且包括各种类型的对象,比如文件,包括客户机可存取的数据;目录,用以组织其他对象;符号链接,它们是树中对象名查找所重定向到的点。与文件系统对象相关联的是比如用以控制对文件系统对象的访问的锁(lock)。有各种类型的锁,包括但不限于会话锁,用以在文件系统的不同客户机之间协调对文件系统对象的访问;以及数据锁,用以协调客户机常驻高速缓存中对文件系统内容的缓存。锁的有效性部分取决于特定客户机和服务器之间是否具有有效的租约(lease)。该租约是客户机和服务器之间的合同(contract),在该合同中,服务器保证在租约所指定的特定时间段内,客户机的高速缓存中的数据是正确的。该租约在到期之前可续展。然而,如果不续展租约(比如因为断线、服务器崩溃或其他原因),那么在租约期结束时,租约期间所获得的锁被无效。客户机在没有有效的锁时,就无法对高速缓存的数据进行操作。因此,为了继续对文件系统对象进行一个或多个操作(比如读、写、查找等),客户机向服务器重新标识其自身以输入新的租约,并且试图再次请求(reassert)该无效锁。为了利于计算环境中的处理,各种控制线程(即线程)被用于特定功能。例如,在文件系统环境的一个实例中,使用一个或多个发送线程发送消息比如到一个或多个服务器;使用一个或多个接收线程从比如一个或多个服务器接收消息;使用一个或多个租约续展线程在客户机和服务器之间续展租约;以及使用一个或多个锁再请求线程转发与再请求无效锁相关的消息。通过缓冲数据并将数据写到存储装置(比如磁盘)的能力,也利于许多计算环境中的处理。例如,将位于计算环境实体(比如文件系统的客户机)本地的缓冲器中的数据写到一个或多个存储装置中,使得数据能够被提交给这些装置。在该数据传播期间,诸如在远离缓冲实体的实体(比如文件系统的服务器,或在磁盘上)上出现的硬件故障等会造成数据丢失。为了将数据丢失最小化,采取措施以管理故障和/或错误。参照图2,描述与该管理相关联的逻辑的实施例。图2描述了本专利技术一方面的管理能力的概况的实例。在一个实例中,该逻辑由计算环境的实体,比如文件系统的客户机执行。例如,该实体执行该逻辑,其中获得错误指示(比如检测错误;检测造成错误的状态;接收错误指示;具有错误指示等),或影响该实体的处理的其他状态的指示。参照图2,在步骤200,计算环境的实体(比如客户机)获得一错误的指示。在一个实例中,有一潜在数据丢失的指示,这被认为是一关键错误。然而,可根据需要将其他错误定义为关键错误。这里将导致实体功能被冻结的错误认为是关键错误。而且,这里将导致功能冻结的任何状态都定义为错误。在一个实例中,错误指示的获得包括拒绝将脏(dirty)数据从实体的高速缓存写到磁盘的能力。例本文档来自技高网...

【技术保护点】
一种利于计算环境的错误处理的方法,所述方法包括:    由该计算环境的实体至少获得响应于该计算环境另一实体的事件的错误的指示,所述另一实体远离该实体;以及    响应于该获得,自动冻结该实体的一部分功能。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:托马斯K克拉克克莱格F埃维哈特文卡特斯瓦拉奥朱朱里鲁塞尔H维特
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利