一种基于属性选择的硬盘故障预测方法技术

技术编号:20918692 阅读:18 留言:0更新日期:2019-04-20 10:08
本发明专利技术提供了一种基于属性选择的硬盘故障预测方法,首先采用计算Cohen’s d的方法和假设检验方法在健康硬盘和故障硬盘中选择出具有显著性分布差异的属性;其次通过遗传算法进一步的筛选出对分类预测有良好效果的属性;最后通过这种属性选择方法达到数据降维和提高预测准确率、检测率的目的。

A Hard Disk Fault Prediction Method Based on Attribute Selection

The invention provides a hard disk fault prediction method based on attribute selection. Firstly, the method of calculating Cohen's D and hypothesis testing are used to select the attributes with significant distribution difference between healthy hard disk and fault hard disk; secondly, the attributes with good effect on classification prediction are further screened by genetic algorithm; finally, the data are achieved by this attribute selection method. The purpose of reducing peacekeeping and improving prediction accuracy and detection rate.

【技术实现步骤摘要】
一种基于属性选择的硬盘故障预测方法
本专利技术属于计算机信息存储领域,涉及一种基于属性选择的硬盘故障预测方法。
技术介绍
在云计算和大数据的背景下,大型企业依靠云数据中心为用户提供服务。随着用户和数据的增加,数据中心中的计算机系统页也变得越来越复杂,这种复杂性使得计算机系统更容易受到各种异常的影响。HDD等外部设备作为主要的存储设备,其故障对数据中心的可靠性和可用性产生非常大的影响。因此,对硬盘故障的分析和预测对于维护数据中心中的可靠性和可用性有积极作用。随着机器学习和数据挖掘等代表性的人工智能技术的发展,给硬盘故障预测带来了新的工具,其中机器学习中的分类算法非常适合解决硬盘故障预测的问题。在数据挖掘过程中,对原始数据的预处理是非常重要一步,不仅可以将数据处理成分类算法可以识别的数据格式,还可以有助于去除数据中的冗余和噪声,提高预测准确率等。其中数据选择作为一种十分重要的数据预处理技术,有助于去除数据的冗余,约简数据量,去除数据噪声,防止分类模型过拟合。经典的选择技术分为包裹法和过滤法。过滤法就是一种独立与机器学习算法的属性选择方法,其优点就是速度快,可以对高维的数据实现快速地降维,但是其缺点也很明显,就是对机器学习算法的支持不够好,也就是可能会降低分类模型的准确率,典型算法就是relief算法。包裹法就是将分类模型的预测结果作为属性选择的评价指标,这种方法的优点就是和分类模型紧密结合,使得预测结果比较好,缺点就是需要进行多次的训练和预测,时间和空间的开销比较大,典型算法就是lvw算法。最后还有一种嵌入式的属性选择方法,将属性选择和学习器的训练过程融为一体,两者在同一过程中完成,这种方法用的较少。无论是包裹法还是过滤法都是较为通用的属性选择算法,并没有针对一种具体的问题进行研究,因此在针对硬盘故障预测的问题中属性选择算法的效果还有进一步提高的余地。
技术实现思路
针对现有技术的缺陷,本专利技术的目的在于提供一种基于属性选择的硬盘故障预测方法,旨在解决现有数据选择技术存在的分类模型准确率低、快速降维困难的问题。为实现上述目的,本专利技术提供了一种硬盘故障预测方法,包括:d1:选取健康硬盘和故障硬盘,建立健康硬盘的数据集health和故障硬盘的数据集fail;d2:从数据集health和数据集fail中抽取待考察的属性数据集,分别记为数据集dist1和dist2;d3:以数据集dist1和dist2作为计算属性Cohen’sd的输入,计算数据集dist1和dist2间Cohen’sd;d4:再次在数据集dist1和dist2中进行无重复抽样,抽样构成样本sampling_dist;d5:以属性数据集间的均值比较效应量Cohen’sd和新样本sampling_dist作为输入,计算属性对应的假定值pvalue;d6:对比假定值和显著水平alpha的数值大小,判断健康硬盘和故障硬盘具有的属性是否具有显著性差异;d7:重复步骤d2~d6,直至遍历完硬盘数据集中所有属性,获取筛选后的属性集合;d8:设置初始化种群大小n_population,种群中每条染色体的长度chrom_len均为通过对Cohen’sd的计算初步筛选得到的属性数量,并对每条染色体的基因随机取值0或1,0代表不选择对应的属性,1代表选择所对应的属性;d9:根据每条染色体对应的属性集合建立机器学习模型,并采用机器学习模型在验证集上测试,获取每条染色体的分类评价指标值AUC作为适应度输出,AUC值的范围为[0,1];d10:对染色体进行轮盘赌方法选择,保留m2条染色体;d11:种群中的染色体随机交叉生成(n_population-m2)条染色体,还原种群大小;d12:选择一定比例的染色体进行变异,构建新一代种群;d13:迭代n_iter次步骤(d9)~(d12),筛选最终种群中适应度值最大的染色体,染色体中基因的取值代表了最后的属性选择结果。通过本专利技术所构思的以上技术方案,与现有技术相比,由于本专利技术首先利用Cohen’sd计算法和假设检验的方法选择出在健康硬盘和故障硬盘中具有显著性分布差异的属性,然后通过遗传算法进一步的筛选出对分类预测有良好效果的属性,能够取得以下有益效果:(1)采用计算Cohen’sd的方法初步筛选具有显著分布差异的属性,再通过遗传算法进一步筛选属性,很好的达到了数据降维的效果;(2)在初步筛选属性中采用Cohen’sd统计量和假设检验的方法,同时采用遗传算法搜索整个组合空间中的较佳解,提高了预测准确率和检测率。附图说明图1是本专利技术提供的属性选择方法的整体示意图;图2是Cohen’sd方法进行属性选择示意图;图3是遗传算法进行属性选择的示意图;图4是染色体交叉生成新染色体的示意图;图5是染色体变异的示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。为实现上述目的,如图1所示,本专利技术提供了一种基于属性选择的硬盘故障预测方法,包括:(1)建立健康硬盘的数据集health和故障硬盘的数据集fail,并初次筛选具有显著性分布差异的属性,如图2所示,具体步骤包括:d1:选取健康硬盘和故障硬盘,建立健康硬盘的数据集health和故障硬盘的数据集fail,如表1给出了failure=0的health数据集,相应的当failure=1代表fail数据集;表1d2:从数据集health和数据集fail中抽取待考察的属性数据集,分别记为数据集dist1和dist2;如表1所示,假设待考察的属性为smart_1_normalized,所述health数据集中smart_1_normalized属性对应的所在列数据成为数据集dist1,fail数据集中smart_1_normalized属性对应的列数据称为dist2,因此,当待考察的属性是唯一的情况,dist1和dist2均为列向量,维度分别是(n1,1),(n2,1),其中n1代表健康硬盘数据集样本的个数,n2代表故障硬盘数据集样本的个数;d3:以数据集dist1和dist2作为输入,计算数据集dist1和dist2间的均值比较效应量Cohen’sd,记为observed_d;优选地,以smart_1_normalized属性为例,该属性的Cohen’sd计算公式为:其中,为健康硬盘所有表征该属性的数据均值,为故障硬盘所有表征该属性的数据均值,μ1和μ2代表两个样本中表征该属性的数据均值,n1为样本中包含健康硬盘的样本个数,n2为样本中包含故障硬盘的样本个数,x1,i为健康硬盘数据中第i个样本对应的该属性数据,x2,j为故障硬盘数据中第j个样本对应的该属性数据;通过计算得到的Cohen距离可以判断属性数值分布之间是否有显著性差异,详细判断标准件表2,从表2可以看出,某属性对应的Cohen’sd值越大,数据分布的差异越大,越容易区别健康硬盘和故障硬盘;表2EffectsizedReferenceVerysmall0.01Sawilowsky,2009Small0.20Cohen,1998Medium0.50Cohen,1998Large0.80Cohen,1998V本文档来自技高网
...

【技术保护点】
1.一种基于属性选择的硬盘故障预测方法,其特征在于,包括:(1)计算健康硬盘和故障硬盘中待考察属性数据集间的均值比较效应量Cohen’s d,并对属性数据集多次无重复抽样构建新的样本,获取该属性对应的假定值;(2)对比属性假定值与显著性水平的数值大小,判断该属性是否可以预测硬盘故障;(3)重复步骤(1)~(2),遍历硬盘数据集中所有属性,初步筛选可预测硬盘故障的属性集合,实现数据的初步降维;(4)初始化种群大小,根据筛选得到的属性数量设定种群中每条染色体长度,随机对染色体中的基因赋值;(5)计算各染色体对应的分类评价指标值,采用轮盘赌方法保留m2条染色体,再通过染色体交叉、变异,构建初始种群大小的新一代种群;(6)迭代法重复步骤(5),获取最终选择的染色体,染色体中包含的属性组合作为预测故障硬盘的依据。

【技术特征摘要】
1.一种基于属性选择的硬盘故障预测方法,其特征在于,包括:(1)计算健康硬盘和故障硬盘中待考察属性数据集间的均值比较效应量Cohen’sd,并对属性数据集多次无重复抽样构建新的样本,获取该属性对应的假定值;(2)对比属性假定值与显著性水平的数值大小,判断该属性是否可以预测硬盘故障;(3)重复步骤(1)~(2),遍历硬盘数据集中所有属性,初步筛选可预测硬盘故障的属性集合,实现数据的初步降维;(4)初始化种群大小,根据筛选得到的属性数量设定种群中每条染色体长度,随机对染色体中的基因赋值;(5)计算各染色体对应的分类评价指标值,采用轮盘赌方法保留m2条染色体,再通过染色体交叉、变异,构建初始种群大小的新一代种群;(6)迭代法重复步骤(5),获取最终选择的染色体,染色体中包含的属性组合作为预测故障硬盘的依据。2.如权利要求1所述的硬盘故障预测方法,其特征在于,步骤(1)具体包括如下步骤:(1.1)选取健康硬盘和故障硬盘,得到健康硬盘的数据集和故障硬盘的数据集;(1.2)从所述两组数据集中分别抽取待考察的属性数据集;(1.3)对所述两组属性数据集进行均值比较;(1.4)再次从所述两组属性数据集中无重复提取构建新的样本,结合所述获取的均值比较效应量作为输入,计算属性对应的假定值。3.如权利要求1或2所述的硬盘故障预测方法,其特征在于,所述步骤(2)中判断各属性是否具有显著性差异的方法为:若属性的假定值小于显著性水平,则该属性在健康硬盘与故障硬盘间有显著性差异;若属性的假定值大于显著性水平,则该属性在健康硬盘与故障硬盘间无显著性差异;若属性的假定值等于显著性水平,则不能检验是否该属性在健康硬盘与故障硬盘间有无显著性差异,则...

【专利技术属性】
技术研发人员:谭支鹏单凯冯丹张鑫钱佳兴涂诗云
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1