一种基于属性选择的硬盘故障预测方法技术

技术编号：20918692 阅读：18 留言：0更新日期：2019-04-20 10:08

本发明专利技术提供了一种基于属性选择的硬盘故障预测方法，首先采用计算Cohen’s d的方法和假设检验方法在健康硬盘和故障硬盘中选择出具有显著性分布差异的属性；其次通过遗传算法进一步的筛选出对分类预测有良好效果的属性；最后通过这种属性选择方法达到数据降维和提高预测准确率、检测率的目的。

A Hard Disk Fault Prediction Method Based on Attribute Selection

The invention provides a hard disk fault prediction method based on attribute selection. Firstly, the method of calculating Cohen's D and hypothesis testing are used to select the attributes with significant distribution difference between healthy hard disk and fault hard disk; secondly, the attributes with good effect on classification prediction are further screened by genetic algorithm; finally, the data are achieved by this attribute selection method. The purpose of reducing peacekeeping and improving prediction accuracy and detection rate.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于属性选择的硬盘故障预测方法
本专利技术属于计算机信息存储领域，涉及一种基于属性选择的硬盘故障预测方法。
技术介绍
在云计算和大数据的背景下，大型企业依靠云数据中心为用户提供服务。随着用户和数据的增加，数据中心中的计算机系统页也变得越来越复杂，这种复杂性使得计算机系统更容易受到各种异常的影响。HDD等外部设备作为主要的存储设备，其故障对数据中心的可靠性和可用性产生非常大的影响。因此，对硬盘故障的分析和预测对于维护数据中心中的可靠性和可用性有积极作用。随着机器学习和数据挖掘等代表性的人工智能技术的发展，给硬盘故障预测带来了新的工具，其中机器学习中的分类算法非常适合解决硬盘故障预测的问题。在数据挖掘过程中，对原始数据的预处理是非常重要一步，不仅可以将数据处理成分类算法可以识别的数据格式，还可以有助于去除数据中的冗余和噪声，提高预测准确率等。其中数据选择作为一种十分重要的数据预处理技术，有助于去除数据的冗余，约简数据量，去除数据噪声，防止分类模型过拟合。经典的选择技术分为包裹法和过滤法。过滤法就是一种独立与机器学习算法的属性选择方法，其优点就是速度快，可以对高维的数据实现快速地降维，但是其缺点也很明显，就是对机器学习算法的支持不够好，也就是可能会降低分类模型的准确率，典型算法就是relief算法。包裹法就是将分类模型的预测结果作为属性选择的评价指标，这种方法的优点就是和分类模型紧密结合，使得预测结果比较好，缺点就是需要进行多次的训练和预测，时间和空间的开销比较大，典型算法就是lvw算法。最后还有一种嵌入式的属性选择方法，将属性选择和学习器的训练过程融为一体...

【技术保护点】
1.一种基于属性选择的硬盘故障预测方法，其特征在于，包括:(1)计算健康硬盘和故障硬盘中待考察属性数据集间的均值比较效应量Cohen’s d，并对属性数据集多次无重复抽样构建新的样本，获取该属性对应的假定值；(2)对比属性假定值与显著性水平的数值大小，判断该属性是否可以预测硬盘故障；(3)重复步骤(1)～(2)，遍历硬盘数据集中所有属性，初步筛选可预测硬盘故障的属性集合，实现数据的初步降维；(4)初始化种群大小，根据筛选得到的属性数量设定种群中每条染色体长度，随机对染色体中的基因赋值；(5)计算各染色体对应的分类评价指标值，采用轮盘赌方法保留m2条染色体，再通过染色体交叉、变异，构建初始种群大小的新一代种群；(6)迭代法重复步骤(5)，获取最终选择的染色体，染色体中包含的属性组合作为预测故障硬盘的依据。

【技术特征摘要】
1.一种基于属性选择的硬盘故障预测方法，其特征在于，包括:(1)计算健康硬盘和故障硬盘中待考察属性数据集间的均值比较效应量Cohen’sd，并对属性数据集多次无重复抽样构建新的样本，获取该属性对应的假定值；(2)对比属性假定值与显著性水平的数值大小，判断该属性是否可以预测硬盘故障；(3)重复步骤(1)～(2)，遍历硬盘数据集中所有属性，初步筛选可预测硬盘故障的属性集合，实现数据的初步降维；(4)初始化种群大小，根据筛选得到的属性数量设定种群中每条染色体长度，随机对染色体中的基因赋值；(5)计算各染色体对应的分类评价指标值，采用轮盘赌方法保留m2条染色体，再通过染色体交叉、变异，构建初始种群大小的新一代种群；(6)迭代法重复步骤(5)，获取最终选择的染色体，染色体中包含的属性组合作为预测故障硬盘的依据。2.如权利要求1所述的硬盘故障预测方法，其特征在于，步骤(1)具体包括如下步骤：(1.1)选取健康硬盘和故障硬盘，得到健康硬盘的数据集和故障硬盘的数据集；(1.2)从所述两组数据集中分别抽取待考察的属性数据集；(1.3)对所述两组属性数据集进行均值比较；(1.4)再次从所述两组属性数据集中无重复提取构建新的样本，结合所述获取的均值比较效应量作为输入，计算属性对应的假定值。3.如权利要求1或2所述的硬盘故障预测方法，其特征在于，所述步骤(2)中判断各属性是否具有显著性差异的方法为：若属性的假定值小于显著性水平，则该属性在健康硬盘与故障硬盘间有显著性差异；若属性的假定值大于显著性水平，则该属性在健康硬盘与故障硬盘间无显著性差异；若属性的假定值等于显著性水平，则不能检验是否该属性在健康硬盘与故障硬盘间有无显著性差异，则...

【专利技术属性】
技术研发人员：谭支鹏，单凯，冯丹，张鑫，钱佳兴，涂诗云，
申请(专利权)人：华中科技大学，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人