一种磁盘故障检测方法以及装置制造方法及图纸

技术编号:30705002 阅读:16 留言:0更新日期:2021-11-06 09:48
本说明书提供一种磁盘故障检测方法以及装置,涉及通信技术领域。一种磁盘故障检测方法,应用于服务器,包括:向第一磁盘下发写入请求,监测阵列卡对第一磁盘的数据写入;若监测到针对第一磁盘的数据写入超出第一预设时长,则通过服务器中的BMC控制第一磁盘下电,其中,第一预设时长小于阵列卡中所设置的修复启动时长。通过上述方法,能够提升服务器的可靠性。能够提升服务器的可靠性。能够提升服务器的可靠性。

【技术实现步骤摘要】
一种磁盘故障检测方法以及装置


[0001]本说明书涉及通信
,尤其涉及一种磁盘故障检测方法以及装置。

技术介绍

[0002]随着互联网应用的普及,作为承载服务的服务器的应用也随之增加,并且服务器还可以设置大量的磁盘作为存储设备保存海量的数据。随着磁盘数量的增加,则可以通过阵列卡对多个磁盘进行管理,此时,阵列卡可以接替磁盘先于缓存数据,并向服务器中所运行的程序进行反馈,之后再将所缓存的数据写入到实际的磁盘中进行存储。
[0003]在向磁盘写入数据出现故障时,为了避免后续数据写入的所造成的丢失,服务器中运行的程序可以对写入磁盘的数据进行阻塞,并等待对该故障磁盘的修复。在进行阻塞时,在接收到阻塞消息时,连接故障磁盘的阵列卡将会受到该阻塞消息的影响,停止向自身所连接的磁盘的数据写入,然而,一个阵列卡可能连接多个磁盘,这将导致所连接的磁盘都被置于被阻塞的状态,降低了服务器进行业务处理的能力,从而降低了服务器的可靠性。

技术实现思路

[0004]为克服相关技术中存在的问题,本说明书提供了一种磁盘故障检测方法以及装置。
[0005]结合本说明书实施方式的第一方面,本申请提供了一种磁盘故障检测方法,应用于服务器,包括:
[0006]向第一磁盘下发写入请求,监测阵列卡对第一磁盘的数据写入;
[0007]若监测到针对第一磁盘的数据写入超出第一预设时长,则通过服务器中的BMC控制第一磁盘下电,其中,第一预设时长小于阵列卡中所设置的修复启动时长。
[0008]可选的,在对阵列卡对第一磁盘的数据写入进行监测之后,还包括:
[0009]若监测到针对第一磁盘的数据写入超出第二预设时长,则重启与第一磁盘相对应的对象存储设备OSD,其中,第二预设时长小于第一预设时长。
[0010]进一步的,在若监测到针对第一磁盘的数据写入超出第二预设时长之后,还包括:
[0011]从服务器中创建的多个OSD中选择第二磁盘所对应的OSD;
[0012]将第一磁盘所对应的OSD所承载的业务迁移至第二磁盘所对应的OSD。
[0013]可选的,在通过服务器中的BMC控制第一磁盘下电之后,还包括:
[0014]对第一磁盘的下电次数进行累加;
[0015]若第一磁盘的下电次数超出阈值,清除与第一磁盘相关联的OSD。
[0016]进一步的,通过服务器中的BMC控制第一磁盘下电之后,还包括:
[0017]通过服务器中的BMC控制第一磁盘上电;
[0018]对第一磁盘进行启动检测;
[0019]若在第三预设时长内确定第一磁盘未通过启动检测,则清除与第一磁盘相关联的OSD。
[0020]结合本说明书实施方式的第二方面,本申请提供了一种磁盘故障检测装置,应用于服务器,包括:
[0021]写入单元,用于向第一磁盘下发写入请求;
[0022]监测单元,用于监测阵列卡对第一磁盘的数据写入;
[0023]控制单元,用于若监测到针对第一磁盘的数据写入超出第一预设时长,则通过服务器中的BMC控制第一磁盘下电,其中,第一预设时长小于阵列卡中所设置的修复启动时长。
[0024]可选的,该装置,还包括:
[0025]重启单元,用于若监测到针对第一磁盘的数据写入超出第二预设时长,则重启与第一磁盘相对应的OSD,其中,第二预设时长小于第一预设时长。
[0026]进一步的,该装置,还包括:
[0027]选择单元,用于从服务器中创建的多个OSD中选择第二磁盘所对应的OSD;
[0028]迁移单元,用于将第一磁盘所对应的OSD所承载的业务迁移至第二磁盘所对应的OSD。
[0029]可选的,该装置,还包括:
[0030]计数单元,用于对第一磁盘的下电次数进行累加;
[0031]清除单元,用于若第一磁盘的下电次数超出阈值,清除与第一磁盘相关联的OSD。
[0032]进一步的,控制单元,还用于通过服务器中的BMC控制第一磁盘上电;
[0033]该装置,还包括:
[0034]检测单元,对第一磁盘进行启动检测;
[0035]清除单元,还用于若在第三预设时长内确定第一磁盘未通过启动检测,则清除与第一磁盘相关联的OSD。
[0036]本说明书的实施方式提供的技术方案可以包括以下有益效果:
[0037]本说明书实施方式中,通过对磁盘的数据写入进行监测,并在小于修复启动时长的第一预设时长内对磁盘进行下电,避免了在服务器中的一块磁盘出现故障时,由于阵列卡所设置的数据写入的阻塞被激活,导致服务器的业务处理能力下降,使得故障的磁盘可以被隔离,提升了服务器的可靠性。
[0038]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书。
附图说明
[0039]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本说明书的实施方式,并与说明书一起用于解释本说明书的原理。
[0040]图1是本申请所涉及的一种磁盘故障检测方法的流程图;
[0041]图2是本申请所涉及的一种服务器的结构示意图;
[0042]图3是本申请所涉及的一种磁盘故障检测装置的结构示意图。
具体实施方式
[0043]这里将详细地对示例性实施方式进行说明,其示例表示在附图中。下面的描述涉
及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施方式中所描述的实施方式并不代表与本说明书相一致的所有实施方式。
[0044]为克服相关技术中存在的问题,本说明书提供了一种磁盘故障检测方法以及装置。
[0045]本申请提供了一种磁盘故障检测方法,应用于服务器,如图1所示,包括:
[0046]S100、向第一磁盘下发写入请求,监测阵列卡对第一磁盘的数据写入。
[0047]如图2所示,在一台服务器中可以设置有主板,与该主板插接的背板。在该主板上设置有处理器等器件,在该背板上设置有BMC(基板管理控制器,Baseboard Management Controller)和CPLD(复杂可编程逻辑器件,Complex Programmable Logic Device)。在背板上还可以通过数据接口插接多个磁盘,并通过PCIE(外围组件高速互联,Peripheral Component Interconnect Express)等连接器插接有阵列卡,该阵列卡也可称为RAID(冗余磁盘阵列,Redundant Array of Independent Disks)卡。在阵列卡和该阵列卡所管理的多个磁盘之间设置I/O(输入/输出,Input/Output)接口,通过I/O接口可以将数据写入到磁盘中进行存储。通过该阵列卡,能够实现对于服务器的多个磁盘的数据写入、数据读取的管理。
[0048]在服务器运行过程中,处理器可以向磁盘下发写入请求,以实现将待写入数据写入到目标磁盘中,后续称本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种磁盘故障检测方法,其特征在于,应用于服务器,包括:向第一磁盘下发写入请求,监测阵列卡对所述第一磁盘的数据写入;若监测到针对所述第一磁盘的数据写入超出第一预设时长,则通过所述服务器中的基板管理控制器BMC控制所述第一磁盘下电,其中,所述第一预设时长小于所述阵列卡中所设置的修复启动时长。2.根据权利要求1所述的方法,其特征在于,在对阵列卡对所述第一磁盘的数据写入进行监测之后,还包括:若监测到针对所述第一磁盘的数据写入超出第二预设时长,则重启与所述第一磁盘相对应的对象存储设备OSD,其中,所述第二预设时长小于所述第一预设时长。3.根据权利要求2所述的方法,其特征在于,在若监测到针对所述第一磁盘的数据写入超出第二预设时长之后,还包括:从所述服务器中创建的多个OSD中选择第二磁盘所对应的OSD;将所述第一磁盘所对应的OSD所承载的业务迁移至所述第二磁盘所对应的OSD。4.根据权利要求1所述的方法,其特征在于,在通过所述服务器中的BMC控制所述第一磁盘下电之后,还包括:对所述第一磁盘的下电次数进行累加;若所述第一磁盘的下电次数超出阈值,清除与所述第一磁盘相关联的OSD。5.根据权利要求4所述的方法,其特征在于,通过所述服务器中的BMC控制所述第一磁盘下电之后,还包括:通过所述服务器中的BMC控制所述第一磁盘上电;对所述第一磁盘进行启动检测;若在第三预设时长内确定所述第一磁盘未通过启动检测,则清除与所述第一磁...

【专利技术属性】
技术研发人员:彭俊钦
申请(专利权)人:新华三技术有限公司成都分公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1