故障检测的方法、装置、电子设备和可读介质制造方法及图纸

技术编号:35330636 阅读:13 留言:0更新日期:2022-10-26 11:47
本申请涉及计算机技术领域,尤其涉及一种故障检测的方法、装置、电子设备和可读介质。该方法包括:获取存储系统的系统日志以及误码存储文件;从误码存储文件中获取统计时间作为统计时间;从系统事件对应的事件发生时间中确定最近的事件发生时间作为目标时间;若目标时间晚于统计时间,则将误码存储文件中的误码统计数据和统计时间替换为存储系统当前的误码统计数据和当前系统时间,得到更新后的误码存储文件;根据更新后的误码存储文件,对存储系统的故障状态进行告警。该方法能够确保误码统计数据中的误码均来自于存储系统的故障或错误,从而提升故障检测的准确性。从而提升故障检测的准确性。从而提升故障检测的准确性。

【技术实现步骤摘要】
故障检测的方法、装置、电子设备和可读介质


[0001]本申请涉及计算机
,尤其涉及一种故障检测的方法、装置、电子设备和可读介质。

技术介绍

[0002]随着计算机技术和通信技术的发展,各类存储器的存储容量均大幅上涨。计算机和服务器中的存储器与处理器或者总线之间的数据存储链路所需要传递的数据量也大幅上升,因此对数据链路的状态进行评估和监控非常重要。
[0003]目前,对于存储系统的数据存储链路的状态评估通常采用链路误码数或误码率进行判断,通过统计数据存储链路的误码总量或单位时间内的误码与总数量的比率,来确定数据存储链路的状态是否正常。
[0004]然而,计算机和服务器在正常的运行过程中也存在一些会产生误码的情况。在上述方案中,这些正常运行产生的误码会被记录到误码统计信息中,使得根据误码统计信息判断存储系统的状态时将正常状态误认为故障状态,从而影响故障检测的准确性。

技术实现思路

[0005]基于上述技术问题,本申请提供一种故障检测方法,以去除了误码统计数据中主动控制导致的误码,确保误码统计数据中的误码均来自于存储系统的故障或错误,避免这些误码导致对存储系统的状态的判断错误,从而提升故障检测的准确性。
[0006]本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
[0007]根据本申请实施例的一个方面,提供一种故障检测方法,包括:
[0008]获取存储系统的系统日志以及误码存储文件,其中,系统日志包括存储系统中系统事件对应的事件发生时间,系统事件包括主动重启事件、通电事件和断电事件中的至少一个,误码存储文件中包括针对系统事件的误码统计数据以及误码统计数据的统计时间;
[0009]从系统事件对应的事件发生时间中确定最近的事件发生时间作为目标时间;
[0010]若目标时间晚于统计时间,则将误码存储文件中的误码统计数据和统计时间替换为存储系统当前的误码统计数据和当前系统时间,得到更新后的误码存储文件;
[0011]根据更新后的误码存储文件,对存储系统的故障状态进行检测。
[0012]根据本申请实施例的一个方面,提供一种故障检测装置,包括:
[0013]文件获取模块,用于获取存储系统的系统日志以及误码存储文件,其中,系统日志包括存储系统中系统事件对应的事件发生时间,系统事件包括主动重启事件、通电事件和断电事件中的至少一个,误码存储文件中包括针对系统事件的误码统计数据以及误码统计数据的统计时间;
[0014]目标时间确定模块,用于从系统事件对应的事件发生时间中确定最近的事件发生时间作为目标时间;
[0015]数据替换模块,用于若目标时间晚于统计时间,则将误码存储文件中的误码统计数据和统计时间替换为存储系统当前的误码统计数据和当前系统时间,得到更新后的误码存储文件;
[0016]故障检测模块,用于根据更新后的误码存储文件,对存储系统的故障状态进行检测。
[0017]在本申请的一些实施例中,基于以上技术方案,目标时间确定模块包括:
[0018]发生时间获取单元,用于从存储系统的系统日志中获取存储系统的各个组件的主动重启事件的事件发生时间;
[0019]第一目标时间确定单元,用于将最近的事件发生时间确定为目标时间。
[0020]在本申请的一些实施例中,基于以上技术方案,目标时间确定模块包括:
[0021]时间查询单元,用于查询存储系统中磁盘的通电事件的通电时间和断电事件的断电时间;
[0022]第二目标时间确定单元,用于将通电时间和断电时间中的最近时间确定为目标时间。
[0023]在本申请的一些实施例中,基于以上技术方案,故障检测装置还包括:
[0024]第一误码数据获取模块,用于获取存储系统的硬件误码数据,其中,硬件误码数据包括总线适配器的误码数量、扩展器的误码数量和磁盘的端到端误码数量中的至少一个;
[0025]第一误码文件生成模块,用于根据硬件误码数据以及当前系统时间,生成误码存储文件。
[0026]在本申请的一些实施例中,基于以上技术方案,目标时间确定模块包括:
[0027]启动时间获取单元,用于从系统日志中获取存储系统的启动时间;
[0028]第三目标时间确定单元,用于若启动时间晚于统计时间,则将启动时间确定为目标时间。
[0029]在本申请的一些实施例中,基于以上技术方案,目标时间确定模块还包括:
[0030]第一重启时间获取单元,用于若启动时间早于统计时间,则从系统日志中获取存储系统中的各个组件的主动重启事件的重启发生时间;
[0031]第一通断电时间查询单元,用于查询存储系统中磁盘的通电事件的通电时间和断电事件的断电时间;
[0032]第四目标时间确定单元,用于将重启发生时间、通电时间和断电时间之中最晚的时间作为目标时间。
[0033]在本申请的一些实施例中,基于以上技术方案,故障检测装置还包括:
[0034]程序启动模块,用于根据应用启动指令,启动误码刷新程序;
[0035]文件检查模块,用于通过误码刷新程序检查误码存储文件是否存在;
[0036]第二误码数据获取模块,用于若误码存储文件不存在,则获取存储系统的硬件误码数据,其中,硬件误码数据包括总线适配器的误码数量、扩展器的误码数量和磁盘的端到端误码数量中的至少一个;
[0037]第二误码文件生成模块,用于根据硬件误码数据以及当前系统时间,生成误码存储文件。
[0038]在本申请的一些实施例中,基于以上技术方案,文件获取模块410包括:
[0039]通信获取单元,用于通过与存储服务器之间的通信接口从存储服务器获取存储服务器的主动重启事件记录以及误码存储文件;
[0040]目标时间确定模块,包括:
[0041]第二重启时间获取单元,用于从主动重启事件记录中获取存储服务器的总线适配器或扩展器的重启事件时间;
[0042]第二通断电时间查询单元,用于查询是否对存储服务器的磁盘进行过通电操作或者断电操作;
[0043]第五目标时间确定单元,用于若确定未对磁盘进行过通电操作或者断电操作,则将重启事件时间中最近的时间确定为目标时间。
[0044]在本申请的一些实施例中,基于以上技术方案,目标时间确定模块还包括:
[0045]第六目标时间确定单元,用于若确定对磁盘进行过通电或者断电操作,则将重启事件时间、通电操作的通电时间和断电操作的断电时间中的最近时间确定为目标时间。
[0046]在本申请的一些实施例中,基于以上技术方案,故障检测装置还包括:
[0047]启动检测模块,用于根据检测到存储服务器的启动操作,在预定延时之后,通过通信接口查询存储服务器的硬件误码数据,其中,硬件误码数据包括总线适配器的误码数量、扩展器的误码数量和磁盘的端到端误码数量中的至少一个;
[0048]第三误码文件生成模块,用于根据硬本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种故障检测方法,其特征在于,包括:获取存储系统的系统日志以及误码存储文件,其中,所述系统日志包括所述存储系统中系统事件对应的事件发生时间,所述系统事件包括主动重启事件、通电事件和断电事件中的至少一个,所述误码存储文件中包括针对所述系统事件的误码统计数据以及所述误码统计数据的统计时间;从所述系统事件对应的事件发生时间中确定最近的事件发生时间作为目标时间;若所述目标时间晚于所述统计时间,则将所述误码存储文件中的误码统计数据和统计时间替换为所述存储系统当前的误码统计数据和当前系统时间,得到更新后的误码存储文件;根据所述更新后的误码存储文件,对所述存储系统的故障状态进行检测。2.根据权利要求1所述的方法,其特征在于,所述从所述系统事件对应的事件发生时间中确定最近的事件发生时间作为目标时间,包括:从所述存储系统的系统日志中获取所述存储系统的各个组件的主动重启事件的事件发生时间;将最近的事件发生时间确定为所述目标时间。3.根据权利要求1所述的方法,其特征在于,所述从所述系统事件对应的事件发生时间中确定最近的事件发生时间作为目标时间,包括:查询所述存储系统中磁盘的通电事件的通电时间和断电事件的断电时间;将所述通电时间和所述断电时间中的最近时间确定为所述目标时间。4.根据权利要求1所述的方法,其特征在于,所述获取存储系统的系统日志以及误码存储文件之前,所述方法还包括:获取所述存储系统的硬件误码数据,其中,所述硬件误码数据包括总线适配器的误码数量、扩展器的误码数量和磁盘的端到端误码数量中的至少一个;根据所述硬件误码数据以及当前系统时间,生成所述误码存储文件。5.根据权利要求1所述的方法,其特征在于,所述从所述系统事件对应的事件发生时间中确定最近的事件发生时间作为目标时间,包括:从所述系统日志中获取所述存储系统的启动时间;若所述启动时间晚于所述统计时间,则将所述启动时间确定为所述目标时间。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:若所述启动时间早于所述统计时间,则从所述系统日志中获取所述存储系统中的各个组件的主动重启事件的重启发生时间;查询所述存储系统中磁盘的通电事件的通电时间和断电事件的断电时间;将所述重启发生时间、所述通电时间和所述断电时间之中最晚的时间作为所述目标时间。7.根据权利要求5所述的方法,其特征在于,所述获取存储系统的系统日志以及误码存储文件之前,包括:根据应用启动指令,启动误码刷新程序;通过所述误码刷新程序检查所述误码存储文件是否存在;若所述误码存储文件不存在,则获取所述存储系统的硬件误码数据,其中,所述硬件误
码数据包括总线适配器的误码数量、扩展器的误码数量和磁盘的端到端误码数量中的至少一个;根据所述硬件误码数据以及当前系统时间,生成所述误码存储文件。8.根据权利要求1所述的方法,其特征在于,所述存储系统包括存储服务器和管理服务器,所述方法由所述管理服务器执行;所述获取存储系统的系统日志以及误码存储文件,包括:通过与所述存储服务器之间的通信接口从所述存储服务器获取所述存储服务器的主动重启事件记录以及误码存储文件;所述从所述系统事件...

【专利技术属性】
技术研发人员:叶铮唐利
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1