一种链路故障确定方法和装置制造方法及图纸

技术编号:19821308 阅读:19 留言:0更新日期:2018-12-19 14:32
本申请实施例公开了一种链路故障确定方法和装置,涉及计算机技术领域,能够准确的确定链路故障。具体方案为:第一控制器获取双端口硬盘的第一端口的第一平均响应时间和第一平均服务时间;所述第一控制器接收所述第二控制器发送的所述第二端口的第二平均响应时间和第二平均服务时间;所述第一控制器根据所述第一平均响应时间、所述第一平均服务时间、所述第二平均响应时间和所述第二平均服务时间,确定所述第一端口对应的后端链路是否故障,和/或所述第二端口对应的后端链路是否故障。本申请实施例提供的方案适合于确定链路故障。

【技术实现步骤摘要】
一种链路故障确定方法和装置
本申请实施例涉及计算机
,尤其涉及一种链路故障确定方法和装置。
技术介绍
双端口硬盘是指包含两个端口的硬盘,双端口硬盘的两个端口中,每个端口分别连接一个控制器,构成两条后端链路,该双端口硬盘和与该双端口硬盘连接的两个控制器组成双控存储系统。双控存储系统不仅提升了存储系统的后端带宽,还提高了系统的可靠性,例如:当硬盘的一条后端链路发生故障时,可以通过另外一条链路继续访问硬盘数据。现有技术提供的链路故障处理方法具体为:当与双端口硬盘中一个端口对应的后端链路发生故障时,与该端口连接的控制器下发到该链路的I/O访问可能会因收不到响应而超时,当I/O访问超时后,该控制器将超时的I/O指令转发至与双端口硬盘中另一个端口连接的控制器进行重试。专利技术人发现,现有技术中的链路故障处理方法至少存在以下问题:链路故障实际可能导致I/O访问超时,也可能导致I/O访问产生较大延时,但未超时,现有技术中的链路故障处理方法,只对导致I/O访问超时的链路故障进行处理,对导致I/O访问产生较大延时,但未超时的故障无法识别,影响存储服务的稳定性。
技术实现思路
本申请实施例提供一种链路故障确定方法和装置,能够在链路故障导致I/O访问产生较大延时,但未超时的情况下,快速准确的确定出双端口硬盘的后端链路故障,减小对业务的影响。为达到上述目的,本申请实施例采用如下技术方案:本申请实施例的第一方面,提供一种链路故障确定方法,该方法包括:第一控制器获取双端口硬盘的第一端口的第一平均响应时间和第一平均服务时间;该第一平均响应时间为第一端口在第一时间段内的平均响应时间,该第一平均服务时间为第一端口在第一时间段内的平均服务时间;其中,该双端口硬盘包括第一端口和第二端口,该第一端口连接第一控制器,该第二端口连接第二控制器;该第一控制器接收第二控制器发送的第二端口的第二平均响应时间和第二平均服务时间,该第二平均响应时间为第二端口在第一时间段内的平均响应时间,该第二平均服务时间为第二端口在第一时间段内的平均服务时间;该第一控制器根据第一平均响应时间、第一平均服务时间、第二平均响应时间和第二平均服务时间,确定第一端口对应的后端链路是否故障,和/或第二端口对应的后端链路是否故障。这样一来,能够在链路故障导致I/O访问产生较大延时,但未超时的情况下,根据第一端口和第二端口的平均响应时间和平均服务时间,确定双端口硬盘的两个端口的后端链路是否故障。结合第一方面,在第一种可能的实现方式中,上述确定第一端口对应的后端链路是否故障,和/或第二端口对应的后端链路是否故障包括:若第一平均响应时间和第二平均响应时间中的较大值与较小值的比值大于或等于第一预设阈值,且第一端口的第一平均响应时间和第二端口的第二平均响应时间中的较大值大于第二预设阈值,且第一端口的第一平均服务时间和第二端口的第二平均服务时间中的较大值与较小值的比值小于或等于第三预设阈值,则确定第一端口和第二端口中的一个端口对应的后端链路故障;根据第一平均响应时间和第二平均响应时间,确定故障的后端链路。这样一来,能够确定出第一端口和第二端口中的一个端口对应的后端链路故障。结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,上述根据第一平均响应时间和第二平均响应时间,确定故障的后端链路包括:若第一平均响应时间大于第二平均响应时间,确定第一端口对应的后端链路故障;若第二平均响应时间大于第一平均响应时间,确定第二端口对应的后端链路故障。这样一来,能够根据两个端口的平均响应时间确定出具体故障的后端链路。结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,上述方法还包括:若第一端口对应的后端链路故障,对该第一端口对应的后端链路降级;第一控制器向第二控制器发送数据请求,用于获取第二端口的第三平均响应时间,该第三平均响应时间为第二端口在第二时间段内的平均响应时间;第一控制器接收第三平均响应时间;若该第三平均响应时间大于或等于第一平均响应时间的1/2,取消对第一端口对应的后端链路的降级。这样一来,能够在链路降级以后,第二端口处理I/O的时延与链路降级之前第一端口处理I/O时延相比没有太大改善时取消链路降级,排除误判。结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,上述方法还包括:若第二端口对应的后端链路故障,第一控制器向第二控制器发送链路故障消息,以指示该第二控制器对第二端口对应的后端链路降级;第一控制器获取第一端口的第四平均响应时间,该第四平均响应时间为第一端口在第二时间段内的平均响应时间;若该第四平均响应时间大于或等于第二平均响应时间的1/2,第一控制器向第二控制器发送取消链路降级消息,以指示第二控制器取消对第二端口对应的后端链路的降级。这样一来,能够在链路降级以后,第一端口处理I/O的时延与链路降级之前第二端口处理I/O时延相比没有太大改善时,取消对第二端口对应的后端链路的降级,排除误判。结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,上述方法还包括:在第三时间段内,分别统计第一控制器对应的后端链路故障的数量和第二控制器对应的后端链路故障的数量,若第一控制器对应的后端链路故障的数量大于或者等于第四预设阈值,则确定第一控制器故障;若第二控制器对应的后端链路故障的数量大于或者等于第四预设阈值,则确定第二控制器故障。这样一来,能够在控制器对应的后端链路故障数量过多时,确定控制器故障。本申请实施例的第二方面,提供一种链路故障确定方法,该方法包括:第二控制器获取双端口硬盘的第二端口的第二平均响应时间和第二平均服务时间,该第二平均响应时间为第二端口在第一时间段内的平均响应时间,该第二平均服务时间为第二端口在第一时间段内的平均服务时间;其中,该双端口硬盘包括第一端口和第二端口,第一端口连接第一控制器,第二端口连接所述第二控制器;第二控制器向第一控制器发送第二平均响应时间和第二平均服务时间,用于指示第一控制器确定第一端口对应的后端链路是否故障,和/或第二端口对应的后端链路是否故障。这样一来,能够在链路故障导致I/O访问产生较大延时,但未超时的情况下,根据第一端口和第二端口的平均响应时间和平均服务时间,确定双端口硬盘的两个端口的后端链路是否故障。结合第二方面,在第一种可能的实现方式中,若第一端口对应的后端链路故障,上述方法还包括:第二控制器接收第一控制器发送的数据请求;第二控制器获取第二端口的第三平均响应时间,该第三平均响应时间为所述第二端口在第二时间段内的平均响应时间;第二控制器向第一控制器发送该第三平均响应时间,用于指示第一控制器根据第三平均响应时间确定是否取消对第一端口对应的后端链路的降级。这样一来,能够在链路降级以后,第二端口处理I/O的时延与链路降级之前第一端口处理I/O时延相比没有太大改善时取消链路降级,排除误判。结合第二方面和上述可能的实现方式,在另一种可能的实现方式中,若第二端口对应的后端链路故障,上述方法还包括:第二控制器接收第一控制器发送的链路故障消息;对第二端口对应的后端链路降级。这样一来,能够在第二端口对应的后端链路故障时,快速隔离慢链路,减小I/O时延的波动。结合第二方面和上述可能的实现方式,在另一种可能的实现方式中,上述对第二端口对应的后端链本文档来自技高网...

【技术保护点】
1.一种链路故障确定方法,其特征在于,所述方法包括:第一控制器获取双端口硬盘的第一端口的第一平均响应时间和第一平均服务时间;所述第一平均响应时间为所述第一端口在第一时间段内的平均响应时间,所述第一平均服务时间为所述第一端口在所述第一时间段内的平均服务时间;其中,所述双端口硬盘包括所述第一端口和第二端口,所述第一端口连接所述第一控制器,所述第二端口连接第二控制器;所述第一控制器接收所述第二控制器发送的所述第二端口的第二平均响应时间和第二平均服务时间,所述第二平均响应时间为所述第二端口在所述第一时间段内的平均响应时间,所述第二平均服务时间为所述第二端口在所述第一时间段内的平均服务时间;所述第一控制器根据所述第一平均响应时间、所述第一平均服务时间、所述第二平均响应时间和所述第二平均服务时间,确定所述第一端口对应的后端链路是否故障,和/或所述第二端口对应的后端链路是否故障。

【技术特征摘要】
1.一种链路故障确定方法,其特征在于,所述方法包括:第一控制器获取双端口硬盘的第一端口的第一平均响应时间和第一平均服务时间;所述第一平均响应时间为所述第一端口在第一时间段内的平均响应时间,所述第一平均服务时间为所述第一端口在所述第一时间段内的平均服务时间;其中,所述双端口硬盘包括所述第一端口和第二端口,所述第一端口连接所述第一控制器,所述第二端口连接第二控制器;所述第一控制器接收所述第二控制器发送的所述第二端口的第二平均响应时间和第二平均服务时间,所述第二平均响应时间为所述第二端口在所述第一时间段内的平均响应时间,所述第二平均服务时间为所述第二端口在所述第一时间段内的平均服务时间;所述第一控制器根据所述第一平均响应时间、所述第一平均服务时间、所述第二平均响应时间和所述第二平均服务时间,确定所述第一端口对应的后端链路是否故障,和/或所述第二端口对应的后端链路是否故障。2.根据权利要求1所述的链路故障确定方法,其特征在于,所述确定所述第一端口对应的后端链路是否故障,和/或所述第二端口对应的后端链路是否故障包括:若所述第一平均响应时间和所述第二平均响应时间中的较大值与较小值的比值大于或等于第一预设阈值,且所述第一端口的第一平均响应时间和所述第二端口的第二平均响应时间中的较大值大于第二预设阈值,且所述第一端口的第一平均服务时间和所述第二端口的第二平均服务时间中的较大值与较小值的比值小于或等于第三预设阈值,则确定所述第一端口和第二端口中的一个端口对应的后端链路故障;根据所述第一平均响应时间和所述第二平均响应时间,确定故障的后端链路。3.根据权利要求2所述的链路故障确定方法,其特征在于,所述根据所述第一平均响应时间和所述第二平均响应时间,确定故障的后端链路包括:若所述第一平均响应时间大于所述第二平均响应时间,确定所述第一端口对应的后端链路故障;若所述第二平均响应时间大于所述第一平均响应时间,确定所述第二端口对应的后端链路故障。4.根据权利要求1-3任一项所述的链路故障确定方法,其特征在于,所述方法还包括:若所述第一端口对应的后端链路故障,对所述第一端口对应的后端链路降级;所述第一控制器向所述第二控制器发送数据请求,用于获取所述第二端口的第三平均响应时间,所述第三平均响应时间为所述第二端口在第二时间段内的平均响应时间;所述第一控制器接收所述第三平均响应时间;若所述第三平均响应时间大于或等于所述第一平均响应时间的1/2,取消对所述第一端口对应的后端链路的降级。5.根据权利要求1-3任一项所述的链路故障确定方法,其特征在于,所述方法还包括:若所述第二端口对应的后端链路故障,所述第一控制器向所述第二控制器发送链路故障消息,以指示所述第二控制器对所述第二端口对应的后端链路降级;所述第一控制器获取所述第一端口的第四平均响应时间,所述第四平均响应时间为所述第一端口在第二时间段内的平均响应时间;若所述第四平均响应时间大于或等于所述第二平均响应时间的1/2,所述第一控制器向所述第二控制器发送取消链路降级消息,以指示所述第二控制器取消对所述第二端口对应的后端链路的降级。6.根据权利要求1-5任一项所述的链路故障确定方法,其特征在于,所述方法还包括,在第三时间段内,分别统计所述第一控制器对应的后端链路故障的数量和所述第二控制器对应的后端链路故障的数量,若所述第一控制器对应的后端链路故障的数量大于或者等于第四预设阈值,则确定所述第一控制器故障;若所述第二控制器对应的后端链路故障的数量大于或者等于第四预设阈值,则确定所述第二控制器故障。7.一种链路故障确定方法,其特征在于,所述方法包括:第二控制器获取双端口硬盘的第二端口的第二平均响应时间和第二平均服务时间,所述第二平均响应时间为所述第二端口在第一时间段内的平均响应时间,所述第二平均服务时间为所述第二端口在所述第一时间段内的平均服务时间;其中,所述双端口硬盘包括第一端口和所述第二端口,所述第一端口连接第一控制器,所述第二端口连接所述第二控制器;所述第二控制器向所述第一控制器发送所述第二平均响应时间和所述第二平均服务时间,用于指示所述第一控制器确定所述第一端口对应的后端链路是否故障,和/或所述第二端口对应的后端链路是否故障。8.根据权利要求7所述的链路故障确定方法,其特征在于,若所述第一端口对应的后端链路故障,所述方法还包括:所述第二控制器接收所述第一控制器发送的数据请求;所述第二控制器获取所述第二端口的第三平均响应时间,所述第三平均响应时间为所述第二端口在第二时间段内的平均响应时间;所述第二控制器向所述第一控制器发送所述第三平均响应时间,用于指示所述第一控制器根据所述第三平均响应时间确定是否取消对所述第一端口对应的后端链路的降级。9.根据权利要求7所述的链路故障确定方法,其特征在于,若所述第二端口对应的后端链路故障,所述方法还包括:所述第二控制器接收所述第一控制器发送的链路故障消息;对所述第二端口对应的后端链路降级。10.根据权利要求9所述的链路故障确定方法,其特征在于,所述对所述第二端口对应的后端链路降级后,所述方法还包括:所述第二控制器接收所述第一控制器发送的取消链路降级消息;所述取消链路降级消息为所述第一控制器确定所述第一端口的第四平均响应时间时间大于或等于所述第二平均响应时间的1/2之后发送的;所述第四平均响应时间为所述第一端口在第二时间段内的平均响应时间;所述第二控制器取消对所述第二端口对应的后端链路的降级。11.一种第一控制器,其特征在于,包括:获取单元,用于获取双端口硬盘的第一端口的第一平均响应时间和第一平均服务时间;所述第一平均响应时间为所述第一端口在第一时间段内的平均响应时间,所述第一平均服务时间为所述第一端口在所述第一时间段内的平均服务时间;其中,所述...

【专利技术属性】
技术研发人员:饶颖
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1