硬盘故障检测方法及装置制造方法及图纸

技术编号:8907042 阅读:175 留言:0更新日期:2013-07-11 04:42
本发明专利技术提出一种硬盘故障检测方法及装置。其中,该方法包括以下步骤:接收关于硬盘的故障报告;收集系统日志中关于硬盘的报错日志并收集硬盘的SMART信息;根据报错日志和SMART信息判断是否存在硬盘硬件故障;如果是,则判断故障报告中的硬盘故障是真故障;如果否,则判断SMART信息中的关键SMART属性的类型的状态或者关键SMART属性的值的状态以确定故障报告中的硬盘故障是否是真故障。根据本发明专利技术实施例的方法,根据报错日志和SMART信息对内核报出的故障硬盘进行真故障筛选判断,将出现假故障的硬盘过滤掉,可以提高硬盘故障报错的准确性以大幅降低硬盘的故障率。

【技术实现步骤摘要】

本专利技术涉及互联网
,尤其涉及一种硬盘故障检测方法及装置
技术介绍
针对互联网服务器中出现的硬盘故障,现有技术通常根据内核打印出与硬盘相关的错误日志进行硬盘故障检测及辨别。现有技术存在的问题是,仅从操作系统层面和IO请求结果的角度触发,容易在硬件故障检测中产生假故障,例如,有些故障为内核故障,有些故障仅仅是IO请求失败或者错误,有些故障是数据错误等,大量产生的假故障导致服务器的故障率高,增加人力成本且降低服务器的效率。
技术实现思路
本专利技术旨在至少解决上述技术问题之一。为此,本专利技术的一个目的在于提出一种结合报错日志和SMART信息对内核报出的故障硬盘做真故障筛选以降低硬盘故障率的硬盘故障检测方法。本专利技术的另一目的在于提出一种硬盘故障检测装置。为了实现上述目的,根据本专利技术的第一方面实施例的硬盘故障检测方法包括以下步骤:A.接收关于所述硬盘的故障报告;B.收集系统日志中关于所述硬盘的报错日志并收集所述硬盘的SMART信息;C.根据所述报错日志和所述SMART信息判断是否存在硬盘硬件故障;D.如果是,则判断所述故障报告中的硬盘故障是真故障;E.如果否,则判断所述SMART信息中的关键SMART属性的类型的状态或者关键SMART属性的值的状态以确定所述故障报告中的硬盘故障是否是真故障。根据本专利技术实施例的硬盘故障检测方法,根据报错日志和SMART信息对内核报出的故障硬盘进行真故障判断及筛选,将出现假故障的硬盘过滤掉,可以提高硬盘故障报错的准确性以大幅降低硬盘的故障率。为了实现上述目的,根据本专利技术的第二方面实施例的硬盘故障检测装置包括:接收模块,所述接收模块用于接收关于所述硬盘的故障报告;收集模块,所述收集模块用于收集系统日志中关于所述硬盘的报错日志并收集所述硬盘的SMART信息;判断模块,所述判断模块用于根据所述报错日志和所述SMART信息判断是否存在硬盘硬件故障,如果是,则所述判断模块判断所述故障报告中的硬盘故障是真故障,如果否,则所述判断模块判断所述SMART信息中的关键SMART属性的类型的状态或者关键SMART属性的值的状态以确定所述故障报告中的硬盘故障是否是真故障。根据本专利技术实施例的硬盘故障检测装置,判断模块根据报错日志和SMART信息对内核报出的故障硬盘进行真故障判断及筛选,将出现假故障的硬盘过滤掉,该装置可以提高硬盘故障报错的准确性,大幅降低硬盘的故障率。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中,图1是根据本专利技术一个实施例的硬盘故障检测方法的流程图;图2是根据本专利技术一个实施例的硬盘故障检测方法的流程图;图3是根据本专利技术一个实施例的硬盘故障检测方法的流程图;图4是根据本专利技术一个实施例的硬盘故障检测方法的流程图;以及图5是根据本专利技术一个实施例的硬盘故障检测装置的结构框图。具体实施例方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。相反,本专利技术的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。在本专利技术的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。在本专利技术的描述中,需要说明的是,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本专利技术中的具体含义。此外,在本专利技术的描述中,除非另有说明,“多个”的含义是两个或两个以上。流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本专利技术的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本专利技术的实施例所属
的技术人员所理解。下面参考说明书附图描述根据本专利技术实施例的硬盘故障检测方法。一种硬盘故障检测方法,包括以下步骤:接收关于硬盘的故障报告;收集系统日志中关于硬盘的报错日志并收集硬盘的SMART信息;根据报错日志和SMART信息判断是否存在硬盘硬件故障;如果是,则判断故障报告中的硬盘故障是真故障;如果否,则判断SMART信息中的关键SMART属性的类型的状态或者关键SMART属性的值的状态以确定故障报告中的硬盘故障是否是真故障。图1为根据本专利技术一个实施例的硬盘故障检测方法的流程图。如图1所示,根据本专利技术实施例的硬盘故障检测方法包括下述步骤。步骤S101,接收关于硬盘的故障报告。具体地,所接收到的关于硬盘的故障报告可以是根据内核打印出的与硬盘相关的错误日志。其中,错误日志所报告的硬盘故障有些为真故障,例如硬盘的磁头、控制器、扇区等硬盘本身的故障,有些故障为假故障,例如内核故障、IO请求失败、数据错误等。步骤S102,收集系统日志中关于硬盘的报错日志并收集硬盘的SMART信息。具体地,首先根据所接收到的关于硬盘的故障报告确定从内核报出的发生故障的硬盘,然后根据该硬盘收集系统日志中关于该硬盘的报错日志和该硬盘的SMART信息,其中 SMART信息即 S.M.A.R.T (Self-Monitoring Analysis and Reporting Technology,自我监测、分析及报告技术,该技术可以对硬盘的磁头、盘片、马达、电路的运行情况、历史记录及预设的安全值进行分析和比较)信息,包括了由行业标准规定的一组专门的硬盘检测参数及其对应的属性值、实际值、属性类型等。步骤S103,根据报错日志和SMART信息判断是否存在硬盘硬件故障。具体地,来源于内核的报错日志是由SCSI (Small Computer Systems Interface,小型计算机系统接口,其为一组标准集,定义了与大量设备通信所需的接口和协议,其中主要定义了与存储相关的设备通信所需的接口和协仪)中间层在10错误发生时对操作系统层的故障反馈,包括故障类型、坏扇区数据等,报错日志将反馈的故障主要分为medium error, hardware error, recovered error, not ready, illegal request, volumeoverflow, miscompare,aborted command和 no sense 等。经过对76719块近线SATA硬盘的故障统计发现,medium error占比为63.1 % ,hardware error占比6.7%,其中,medium error主要是与读错误后的ECC校验失败有关,涉及数据所在的扇区号,许多该故障仅仅是数据错误,即使是扇区本身错误也可以通过避免该扇区被再次使用的方式进行修复,所以存在很大比例的假故障,ha本文档来自技高网
...

【技术保护点】
一种硬盘故障检测方法,其特征在于,包括以下步骤:A.接收关于所述硬盘的故障报告;B.收集系统日志中关于所述硬盘的报错日志并收集所述硬盘的SMART信息;C.根据所述报错日志和所述SMART信息判断是否存在硬盘硬件故障;D.如果是,则判断所述故障报告中的硬盘故障是真故障;E.如果否,则判断所述SMART信息中的关键SMART属性的类型的状态或者关键SMART属性的值的状态以确定所述故障报告中的硬盘故障是否是真故障。

【技术特征摘要】

【专利技术属性】
技术研发人员:胡殿明魏伟王志谦
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1