预测硬盘故障发生时间的方法、装置及存储介质制造方法及图纸

技术编号:21246726 阅读:60 留言:0更新日期:2019-06-01 07:12
本公开提供一种预测硬盘故障发生时间的方法、装置及存储介质,用以解决相关技术无法对硬盘发生故障的时间进行预测的问题。该方法包括:根据采集到的硬盘的各项状态数据从多个硬盘中筛选出濒临故障的硬盘;计算在第一预设时间段内采集到的濒临故障的硬盘的各项状态数据中的各条数据的变化量以及离散量,得到第一预测数据集;将第一预测数据集输入第一训练模型,得到各硬盘在未来的第二预设时间段内发生故障的概率。本公开能够对硬盘发生故障的时间进行预测。

Method, Device and Storage Medium for Predicting Hard Disk Fault Occurrence Time

The present disclosure provides a method, device and storage medium for predicting the occurrence time of a hard disk failure to solve the problem that related technology cannot predict the occurrence time of a hard disk failure. The method includes: screening out the hard disks that are in danger of failure according to the state data of the collected hard disks; calculating the variation and discreteness of each data in the state data of the hard disks that are in danger of failure collected in the first preset period to get the first prediction data set; inputting the first prediction data set into the first training model to get the hard disks in the first training model. The probability of failure in the second preset period in the future. The present disclosure can predict the time when a hard disk malfunction occurs.

【技术实现步骤摘要】
预测硬盘故障发生时间的方法、装置及存储介质
本公开涉及计算机
,特别是涉及一种预测硬盘故障发生时间的方法、装置及存储介质。
技术介绍
据国内外统计资料显示,硬盘是当前数据中心最主要的故障源。相关报告中指出:“在一个拥有4000个节点的数据中心,平均每6小时就会有一个硬盘发生故障”。硬盘故障如此频繁的发生势必会导致业务中断以及数据丢失等严重后果。如果能提前预测到硬盘故障的发生,将对数据中心的运营带来极大地便利。目前,相关技术中的硬盘故障预测技术在一味追求提升检出率的情况下,导致误检率偏高,因此很多健康硬盘会被误判为故障硬盘。且相关硬盘故障预测技术仅能预测硬盘是否会发生故障,而无法预测故障可能发生的时间,导致预测的故障距离真正故障时间较长(短则一两周,长则一两个月),因此浪费硬盘生命周期,无法有效指导换盘。且在对硬盘的故障进行预测时受限于处理数据体量大、处理器处理能力有限等原因,导致需要较长的时间才能得出预测结果(短则十几分钟,长则数小时),因此硬盘故障预测效率较低。
技术实现思路
本公开提供一种硬盘故障发生时间的预测方法、装置及存储介质,用以解决相关技术中无法对硬盘发生故障的时间进行预测的问题。根据本公开的一个方面,提供了一种硬盘故障发生时间的预测方法,包括:根据采集到的硬盘的各项状态数据从多个硬盘中筛选出濒临故障的硬盘;计算在第一预设时间段内采集到的濒临故障的硬盘的各项状态数据中的各条数据的变化量以及离散量,得到第一预测数据集;将所述第一预测数据集输入第一训练模型,得到各硬盘在未来的第二预设时间段内发生故障的概率,其中,所述第一训练模型通过第一人工智能算法基于第一训练数据集进行训练得到,所述第一训练数据集中包括正样本数据以及负样本数据,其中,故障硬盘对应的变化量以及离散量为正样本数据,非故障硬盘对应的变化量以及离散量为负样本数据。可选地,根据采集到的各硬盘的各项状态数据确定各硬盘中濒临故障的硬盘,包括:将采集到的所述各硬盘的各项状态数据输入第二训练模型,得到与所述各项状态数据对应的分类结果,所述分类结果的类别包括濒临故障以及健康,其中,所述第二训练模型通过第二人工智能算法基于第二训练数据集进行训练得到,所述第二训练数据集中包括正样本数据以及负样本数据,其中,所述各硬盘中非故障硬盘对应的状态数据为负样本数据,故障硬盘对应的状态数据为正样本数据;将获得的分类结果中类别为濒临故障的分类结果占总结果的比例超过第二阈值的硬盘确定为濒临故障的硬盘。可选地,所述状态数据包括:硬盘的SMART信息和/或硬盘的读/写I/O信息。可选地,所述SMART信息包括以下至少一项:硬盘重映射的扇区个数、硬件不可修复的错误计数、硬件错误检查和纠正ECC修复的错误计数、原始读出错率、磁头寻道出错率以及磁头离盘片过高导致写失败的次数;所述I/O信息至少包括:写入块数。可选地,所述方法还包括:在将所述第一预测数据集输入第一训练模型之前,将所述各硬盘在所述第一预设时间段内的状态数据合并为一项数据,计算该项数据内各条数据的离散量以及变化量;将所述各硬盘中非故障硬盘的离散量以及变化量标记为负样本数据,将所述各硬盘中故障硬盘的离散量以及变化量标记为正样本数据,得到所述第一训练数据集。可选地,所述方法还包括:使用新采集到的各硬盘的状态数据更新所述原始数据集中的待更新数据,其中,所述待更新数据是所述原始数据集中在最早的第三预设时间段内采集到的所述状态数据。可选地,所述变化量通过以下任一公式进行计算:以及其中,Δ为所述变化量,an为在所述第一预设时间段内采集到的第n项状态数据,k为在所述第一预设时间段内采集到的状态数据的总数。根据本公开的第二个方面,提供了一种预测硬盘故障发生时间的装置,包括:筛选模块,用于根据采集到的硬盘的各项状态数据从多个硬盘中筛选出濒临故障的硬盘;计算模块,用于计算在第一预设时间段内采集到的濒临故障的硬盘的各项状态数据中的各条数据的变化量以及离散量,得到第一预测数据集;输入模块,用于将所述第一预测数据集输入第一训练模型,得到各硬盘在未来的第二预设时间段内发生故障的概率,其中,所述第一训练模型通过第一人工智能算法基于第一训练数据集进行训练得到,所述第一训练数据集中包括正样本数据以及负样本数据,其中,故障硬盘对应的变化量以及离散量为正样本数据,非故障硬盘对应的变化量以及离散量为负样本数据。可选地,所述筛选模块包括:输入单元,用于将采集到的所述各硬盘的各项状态数据输入第二训练模型,得到与所述各项状态数据对应的分类结果,所述分类结果的类别包括濒临故障以及健康,其中,所述第二训练模型通过第二人工智能算法基于第二训练数据集进行训练得到,所述第二训练数据集中包括正样本数据以及负样本数据,其中,所述各硬盘中非故障硬盘对应的状态数据为负样本数据,故障硬盘对应的状态数据为正样本数据;确定单元,用于将获得的分类结果中类别为濒临故障的分类结果占总结果的比例超过第二阈值的硬盘确定为濒临故障的硬盘。可选地,所述状态数据包括:硬盘的SMART信息和/或硬盘的读/写I/O信息。可选地,所述SMART信息包括以下至少一项:硬盘重映射的扇区个数、硬件不可修复的错误计数、硬件错误检查和纠正ECC修复的错误计数、原始读出错率、磁头寻道出错率以及磁头离盘片过高导致写失败的次数;所述I/O信息至少包括:写入块数。可选地,所述装置还包括:合并模块,用于在将所述第一预测数据集输入第一训练模型之前,将所述各硬盘在所述第一预设时间段内的状态数据合并为一项数据,计算该项数据内各条数据的离散量以及变化量;第一标记模块,用于将所述各硬盘中非故障硬盘的离散量以及变化量标记为负样本数据,将所述各硬盘中故障硬盘的离散量以及变化量标记为正样本数据,得到所述第一训练数据集。可选地,所述装置还包括:更新模块,用于使用新采集到的各硬盘的状态数据更新所述原始数据集中的待更新数据,其中,所述待更新数据是所述原始数据集中在最早的第二预设时间段内采集到的所述状态数据。可选地,所述变化量通过以下任一公式进行计算:以及其中,Δ为所述变化量,an为在所述第一预设时间段内采集到的第n项状态数据,k为在所述第一预设时间段内采集到的状态数据的总数。根据本公开的第三个方面,提供了一种预测硬盘故障发生时间的装置,包括:处理器;用于存储处理器可执行指令的存储器;当所述指令被处理器执行时,执行如下操作:根据采集到的硬盘的各项状态数据从多个硬盘中筛选出濒临故障的硬盘;计算在第一预设时间段内采集到的濒临故障的硬盘的各项状态数据中的各条数据的变化量以及离散量,得到第一预测数据集;将所述第一预测数据集输入第一训练模型,得到各硬盘在未来的第二预设时间段内发生故障的概率,其中,所述第一训练模型通过第一人工智能算法基于第一训练数据集进行训练得到,所述第一训练数据集中包括正样本数据以及负样本数据,其中,故障硬盘对应的变化量以及离散量为正样本数据,非故障硬盘对应的变化量以及离散量为负样本数据。根据本公开的第四个方面,提供了一种非临时性计算机可读存储介质,当所述存储介质中的指令由处理器执行时,使得处理器能够执行根据本公开第一个方面所述的方法。本专利技术有益效果如下:本公开实施例的预测硬盘故障发生时间的方法,将基于第一预设时间段内采集到本文档来自技高网...

【技术保护点】
1.一种预测硬盘故障发生时间的方法,其特征在于,包括:根据采集到的硬盘的各项状态数据从多个硬盘中筛选出濒临故障的硬盘;计算在第一预设时间段内采集到的濒临故障的硬盘的各项状态数据中的各条数据的变化量以及离散量,得到第一预测数据集;将所述第一预测数据集输入第一训练模型,得到各硬盘在未来的第二预设时间段内发生故障的概率,其中,所述第一训练模型通过第一人工智能算法基于第一训练数据集进行训练得到,所述第一训练数据集中包括正样本数据以及负样本数据,其中,故障硬盘对应的变化量以及离散量为正样本数据,非故障硬盘对应的变化量以及离散量为负样本数据。

【技术特征摘要】
1.一种预测硬盘故障发生时间的方法,其特征在于,包括:根据采集到的硬盘的各项状态数据从多个硬盘中筛选出濒临故障的硬盘;计算在第一预设时间段内采集到的濒临故障的硬盘的各项状态数据中的各条数据的变化量以及离散量,得到第一预测数据集;将所述第一预测数据集输入第一训练模型,得到各硬盘在未来的第二预设时间段内发生故障的概率,其中,所述第一训练模型通过第一人工智能算法基于第一训练数据集进行训练得到,所述第一训练数据集中包括正样本数据以及负样本数据,其中,故障硬盘对应的变化量以及离散量为正样本数据,非故障硬盘对应的变化量以及离散量为负样本数据。2.根据权利要求1所述的方法,其特征在于,根据采集到的硬盘的状态数据从多个硬盘中筛选出濒临故障的硬盘,包括:将采集到的所述各硬盘的各项状态数据输入第二训练模型,得到与所述各项状态数据对应的分类结果,所述分类结果的类别包括濒临故障以及健康,其中,所述第二训练模型通过第二人工智能算法基于第二训练数据集进行训练得到,所述第二训练数据集中包括正样本数据以及负样本数据,其中,所述各硬盘中非故障硬盘对应的状态数据为负样本数据,故障硬盘对应的状态数据为正样本数据;将获得的分类结果中类别为濒临故障的分类结果占总结果的比例超过第二阈值的硬盘确定为濒临故障的硬盘。3.根据权利要求1所述的方法,其特征在于,所述状态数据包括:硬盘的SMART信息和/或硬盘的读/写I/O信息。4.根据权利要求3所述的方法,其特征在于,所述SMART信息包括以下至少一项:硬盘重映射的扇区个数、硬件不可修复的错误计数、硬件错误检查和纠正ECC修复的错误计数、原始读出错率、磁头寻道出错率以及磁头离盘片过高导致写失败的次数;所述I/O信息至少包括:写入块数。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:在将所述第一预测数据集输入第一训练模型之前,将所述各硬盘在所述第一预设时间段内的状态数据合并为一项数据,计算该项数据内各条数据的离散量以及变化量;将所述各硬盘中非故障硬盘的离散量以及变化量标记为负样本数据,将所述各硬盘中故障硬盘的离散量以及变化量标记为正样本数据,得到所述第一训练数据集。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:使用新采集到的各硬盘的状态数据更新所述原始数据集中的待更新数据,其中,所述待更新数据是所述原始数据集中在最早的第三预设时间段内采集到的所述状态数据。7.根据权利要求1至6任一项所述的方法,其特征在于,所述变化量通过以下任一公式进行计算:以及其中,Δ为所述变化量,an为在所述第一预设时间段内采集到的第n项状态数据,k为在所述第一预设时间段内采集到的状态数据的总数。8.一种预测硬盘故障发生时间的装置,其特征在于,包括:筛选模块,用于根据采集到的硬盘的各项状态数据从多个硬盘中筛选出濒临故障的硬盘;计算模块,用于计算在第一预设时间段内采集到的濒临故障的硬盘的各项状态数据中的各条数据的变化量以及离散量,得到第一预测数据集;输入模块,用于将所述第一预测数据集输入第一训练模型,得到各硬盘在未来的第二预设时间段内发生故障的概率,其中,所述第一训练模型通过第一人工智能算法基于第一训练数据...

【专利技术属性】
技术研发人员:杨洪章屠要峰杨雅辉李忠良郭斌
申请(专利权)人:中兴通讯股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1