处理结构故障的方法和系统技术方案

技术编号:2853341 阅读:139 留言:0更新日期:2012-04-11 18:40
提供了一种用于处理结构故障的方法、系统、和程序。一模块截取指示结构中提供到共享设备的连接的路径中的故障的信号。该模块生成中断给操作系统中向因路径故障而不可访问的共享设备提供接口的设备驱动器。设备驱动器从该模块请求有关因路径故障而不可访问的多个设备的状态的信息,并且接收指示不可访问的设备的信息。设备驱动器进行重新配置以停止对不可访问设备的使用。

【技术实现步骤摘要】

本专利技术涉及用于处理结构(fabric)故障的方法、系统、和程序。
技术介绍
在某些计算环境中,多个主机系统可以为了存储设备中的数据而与诸如IBM企业存储服务器(ESS,Enterprise Storage Server)之类的控制单元进行通信,其中通过由ESS接收请求,经一个或多个逻辑路径提供对诸如互连的硬盘驱动器之类的存储设备的访问,来管理存储设备中的数据(IBM和ESS是IBM的注册商标)。互连的驱动器可以被配置为直接访问存储设备(DASD)、独立盘冗余阵列(RAID)、仅仅一串磁盘(JBOD)等。控制单元可以包括重复和冗余的处理集合体(complex),也称为群集,以允许在一个出故障的情况下,幸存群集克服故障。群集可以访问共享的设备。
技术实现思路
提供了一种用于处理结构故障的方法、系统、和程序。一模块截取指示结构中提供到共享设备的连接的路径的故障的信号。该模块生成中断给操作系统中向因路径故障而不可访问的共享设备提供接口的设备驱动器。设备驱动器从该模块请求有关因路径故障而不可访问的多个设备的状态的信息,并且接收指示不可访问的设备的信息。设备驱动器进行重新配置以停止对不可访问设备的使用。附图说明图1说明了实现实施例的计算环境。图2、3、和4说明了处理设备故障的操作。具体实施例方式图1说明了其中实现了本专利技术的各个方面的计算环境。一个或多个主机2将指向存储系统4的输入/输出(I/O)请求传递到控制单元6,其中控制单元6管理对存储系统4的访问。在一个实施例中,控制单元6包括两个处理集合体8a、8b,每个处理集合体都包括处理器10a、10b和存储器12、12a。每个处理集合体8a、8b包括管理器模块14a、14b。管理器模块14a、14b包括管理和协调在处理集合体8a、8b中执行的一个或多个逻辑分区16a、16b的操作的代码。每个逻辑分区16a、16b分离地运行操作系统18a、18b和设备驱动器20a、20b。逻辑分区包括处理器10a、10b到逻辑独立处理系统的划分,其中每个逻辑独立处理系统具有它们自己的操作系统18a、18b和设备驱动器20a、20b。可以在每个处理集合体中运行多个逻辑分区,而且这些逻辑分区由用于那个集合体的管理器模块所管理。每个设备驱动器20a、20b提供了在其中运行设备驱动器20a、20b的逻辑分区16a、16b中的操作系统18a、18b和诸如主机适配器22a、22b...22n和设备适配器24a、24b...24n之类的外部设备之间的接口。主机适配器22a、22b...22n使处理集合体8a、8b能与主机2进行通信,而设备适配器24a、24b...24n使处理集合体8a、8b能与存储系统4进行通信。因此,处理集合体8a、8b共享诸如适配器22a、22b...22n、24a、24b...24n之类的设备。变量“n”用于指示单元的整数个实例,并且当与不同的单元一起使用时可以指示不同或者相同的整数值。例如,22n和24n可以指示相同或者不同数量的主机适配器和设备适配器24n。处理集合体8a、8b在结构30a上与主机适配器22a、22b...22n进行通信,并且在结构30b上和设备适配器24a、24b...24n进行通信。结构30a、30b可以包括一个或多个在处理集合体8a、8b和适配器之间提供通信路径的接口。路径包括在结构30a、30b中允许在这些结构上与共享的适配器进行通信的硬件。在一个实施例中,该结构可以包括光纤通路判优环形配置、串行环路体系结构或者诸如外围部件互连(PCI)接口之类的总线接口。可以向每个处理集合体8a、8b分配适配器22a、22b...22n、24a、24b...24n的一部分,并且在初始化期间,处理集合体8a、8b负责初始化结构30a、30b中提供到分配给该处理集合体的适配器的通信路径的部分。例如,如果向处理集合体8a分配了适配器22a、22b、24a、24b,则处理集合体8a将初始化和配置结构30a、30b中提供处理集合体8a和适配器22a、22b、24a、24b之间的通信路径的部分。同样地,如果向处理集合体8b分配了适配器22n和24n,则处理集合体8b将初始化和配置结构30a、30b中允许处理集合体8b和适配器22n和24n之间的通信的部分和路径。对结构30a、30b进行配置包括设置在结构硬件(例如光纤通路循环硬件、串行环体系结构硬件或者总线接口硬件)中的寄存器,并执行其它与初始化和发现相关的操作。管理器模块14a、14b保持设备/逻辑分区(LPAR)分配26a、26b,这些分配标识适配器22a、22b...22n、24a、24b...24n到在每个处理集合体8a、8b中的逻辑分区16a、16b的分配,以便由被分配给特定适配器22a、22b...22n、24a、24b...24n的逻辑分区16a、16b中运行的设备驱动器20a、20b处理特定适配器22a、22b...22n、24a、24b...24n和处理集合体8a、8b之间的通信。每个处理集合体8a、8b可以在分离的电源范围上。可以将处理集合体8a、8b分配为处理指向在存储系统4中配置的特定卷的I/O请求。处理集合体8a、8b经由设备适配器24a、24b...24n、在设备网络(未显示)上与存储系统4进行通信,该设备网络可以包括局域网(LAN)、存储区域网络(SAN)、总线接口、串行接口等。此外,处理集合体8a、8b在允许处理器相互通信的连接28上进行通信,以管理针对诸如共享适配器22a、22b...22n、24a、24b...24n之类的共享设备执行的配置操作。在替换实施例中,可以仅仅有一个连接所有适配器22a、22b...24n、24a、24b...24n的结构,即结构30a和30b是单个互连结构的一部分;或者可以有诸如所示30a和30b的两个结构;或超过两个的结构。主机22a、22b...22n和设备24a、24b...24n适配器可以经由分离的适配器如图1所示的30a和30b进行连接,或者可以在同一个结构上连接。控制单元6可以包括诸如企业存储服务器、存储控制器等的任何类型的服务器,或者用于管理到所附接的(多个)存储系统4的I/O请求的其它设备,其中该存储系统可以包括一个或多个在本
巳知的存储设备,诸如互连的硬盘驱动器(例如,配置为DASD、RAID、JBOD等)、磁带、电子存储器等。主机2可以在诸如局域网(LAN)、存储区域网络(SAN)、广域网(WAN)、无线网络等之类的网络(未显示)上、经由适配器22a、22b...22n和控制单元6进行通信。可替换地,主机2可以在诸如外围部件互连(PCI)总线之类的总线接口或者串行接口上,与控制单元6进行通信。结构30a、30b中的故障可以生成到处理集合体8a、8b中的操作系统18a、18b的机器检查条件,其中如果共享结构30a、30b硬件具有致命错误类型,则其可以导致两个处理集合体都崩溃。所描述的实施例提供了隔开(fence off)因在到这些共享设备的结构路径中的故障而导致的不可访问的共享设备、以避免其中共享设备的不可访问可以导致两个处理集合体8a、8b都崩溃的情况的技术。图2说明了一些操作的实施例,这些操作由管理器模块14a、14本文档来自技高网
...

【技术保护点】
一种方法,包括:    利用模块截取指示结构中提供到共享设备的连接的路径中的故障的信号;     利用该模块生成中断给操作系统中向因路径故障而不可访问的共享设备提供接口的设备驱动器;    利用该设备驱动器从该模块请求有关因路径故障而不可访问的多个设备的状态的信息;     由设备驱动器接收指示不可访问设备的信息;以及    由设备驱动器进行重新配置以停止对不可访问设备的使用。

【技术特征摘要】
US 2004-11-12 10/987,5721.一种方法,包括利用模块截取指示结构中提供到共享设备的连接的路径中的故障的信号;利用该模块生成中断给操作系统中向因路径故障而不可访问的共享设备提供接口的设备驱动器;利用该设备驱动器从该模块请求有关因路径故障而不可访问的多个设备的状态的信息;由设备驱动器接收指示不可访问设备的信息;以及由设备驱动器进行重新配置以停止对不可访问设备的使用。2.如权利要求1所述的方法,其中该结构中的多条路径被配置到包括不可访问设备在内的多个设备,其中来自该模块的信息指示一个可用设备,而且其中重新配置还包括选择该结构中到一个可用设备的一条路径,以用于设备操作。3.如权利要求1所述的方法,其中请求信息还包括请求有关所有设备的信息。4.如权利要求1所述的方法,其中该中断包括第一中断,该方法还包括由该模块针对发生故障的路径执行恢复操作;响应于恢复操作,由该模块检测发生故障的路径的可用性,其中响应于对发生故障的路径的可用性的检测,不可访问的设备包括已恢复设备;以及由该模块生成第二中断给设备驱动器,以发信号通知已恢复设备的可用性。5.如权利要求4所述的方法,还包括响应于第二中断,由设备驱动器进行重新配置以使用已恢复设备。6.如权利要求1所述的方法,还包括由模块管理多个逻辑分区的操作,每个逻辑分区运行分离的操作系统和为设备提供接口的设备驱动器;以及响应于该信号,由该模块根据逻辑分区到设备的分配,确定分配给不可访问设备的逻辑分区,其中中断被发送给所确定的逻辑分区中的设备驱动器。7.如权利要求6所述的方法,其中该模块和逻辑分区被包括在第一处理集合体中,其中第二处理集合体包括模块和逻辑分区,其中由第一处理集合体的一个逻辑分区中的设备驱动器进行的重新配置还包括与第二处理集合体协调该重新配置。8.如权利要求7所述的方法,还包括响应于由第一处理系统中所确定的逻辑分区中的设备驱动器进行的协调,由第二处理集合体中的设备驱动器进行重新配置,以停止对不可访问设备的使用。9.如权利要求8所述的方法,还包括由第二处理系统中的设备驱动器从第二处理集合体中的模块请求有关设备状态的信息,以确定因触发了该信号的路径故障而不可访问的设备。10.如权利要求9所述的方法,其中该中断包括第一中断,该方法还包括由第一处理集合体中的模块针对该结构中发生故障的路径执行恢复操作;响应于该恢复操作,由第一处理集合体中的模块检测发生故障的路径的可用性,其中响应于对路径可用性的检测,不可访问的设备包括已恢复设备;由第一处理集合体中的模块生成第二中断给设备驱动器,以发信号通知已恢复设备的可用性;以及响应于第二中断,由第一处理集合体中的设备驱动器进行重新配置以使用已恢复设备。11.如权利要求10所述的方法,其中由第一处理集合体中的设备驱动器进行重新配置以使用已恢复设备还包括从第一处理集合体中的模块请求有关已恢复设备和用于与已恢复设备进行通信的路径的信息,其中重新配置配置对该信息中指示的路径的使用,以与已恢复设备进行通信。12.如权利要求10所述的方法,还包括由第一处理集合体中的设备驱动器与第二处理集合体中的设备驱动器协调该重新配置,以使用已恢复设备;以及由第二处理集合体中的设备驱动器进行重新配置以使用已恢复设备。13.一种系统,包括一结构;可通过该结构访问的多个设备;处理集合体,能够通过该结构访问设备;模块和设备驱动器,在第一处理集合体中运行,以使第一处理集合体执行(i)利用该模块截取指示结构中提供到共享设备的连接的路径中的故障的信号;(ii)利用该模块生成中断给操作系统中向因路径故障而不可访问的共享设备提供接口的设备驱动器;(iii)利用该设备驱动器从该模块请求有关因路径故障而不可访问的多个设备的状态的信息;(iv)由设备驱动器接收指示不可访问设备的信息;以及(v)由设备驱动器进行重新配置以停止对不可访问设备的使用。14.如权利要求13所述的系统,其中该结构中的多条路径被配置到包括不可访问设备在内的多个设备,其中来自该模块的信息指示一个可用设备,而且其中重新配置还包括选择该结构中到一个可用设备的一条路径,以用于设备操作。15.如权利要求13所述的系统,其中请求信息还包括请求有关所有设备的信息。16.如权利要求13所述的系统,其中该中断包括第一中断,该系统还包括由该模块针对发生故障的路径执行恢复操作;响应于恢复操作,由该模块检测发生故障的路径的可用性,其中响应于对发生故障的路径的可用性的检测,不可访问的设备包括已恢复设备;以及由该模块生成第二中断给设备驱动器,以发信号通知已恢复设备的可用性。17.如权利要求16所述的系统,其中由设备驱动器执行的操作还包括响应于第二中断,进行重新配置以使用已恢复设备。18.如权利要求13所述的系统,其中由模块执行的操作还包括管理多个逻辑分区的操作,每个逻辑分区运行分离的操作系统和为设备提供接口的设备驱动器;以及响应于该信号,根据逻辑分区到设备的分配,确定分配给不可访问设备的逻辑分区,其中中断被发送给所确定的逻辑分区中的设备驱动器。19.如权利要求18所述的系统,其中该处理集合体包括第一处理集合体,其中第二处理集合体包括模块和逻辑分区,其中由第一处理集合体的一个逻辑分区中的设备驱动器进行的重新配置还包括与第二处理集合体协调该重新配置。20.如权利要求19所述的系统,其中第二处理集合体中的设备驱动器在第二处理集合体中运行以执行响应于由第一处理系统中所确定逻辑分区中的设备驱动器进行的协调,进行重新配置以停止对不可访问设备的使用。21.如权利要求20所述的系统,其中第二处理集合体中的设备驱动器在第二处理集合体运行以进一步执行从第二处理集合体中的模块请求有关设备状态的信息,以确定因触发了该信号的路径故障而不可访问的...

【专利技术属性】
技术研发人员:许育诚约翰N麦考利威廉G舍曼宋正中
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1