一种基于变权重随机森林的硬盘故障预测方法及系统技术方案

技术编号:28843369 阅读:17 留言:0更新日期:2021-06-11 23:43
本发明专利技术公开了一种基于变权重随机森林的硬盘故障预测方法及系统,属于信息处理技术领域,其特征在于,包括如下步骤:步骤一:数据预处理:决策树的节点分裂信息值可能为0,将分裂信息值与分裂信息平均值之和来代替单一的分裂信息值;步骤二:根据精度A和多样性值K选取决策树T

【技术实现步骤摘要】
一种基于变权重随机森林的硬盘故障预测方法及系统
本专利技术属于信息处理
,特别是涉及一种基于变权重随机森林的硬盘故障预测方法及系统。
技术介绍
如今,越来越多的工业级机构依靠数据中心来存储和处理数据。数据中心的崩溃可能会导致巨大的损失甚至会导致灾难性的后果。据统计,硬盘是数据中心最大的故障源之一,仅硬盘故障就占取数据中心所有硬件故障的71.1%。因此,采取一些措施来处理硬盘故障问题是十分迫切的。自我检测、分析和报告技术(SMART)普遍应用于硬盘中,以监视和分析硬盘的内部属性。研究表明,通过使用SMART属性来预测即将发生的故障这种主动容灾机制是可行的。为了提高硬盘故障的预测准确度,已经基于SMART属性做出了许多努力,其中就包括分析硬盘驱动器的故障行为,设计用于预测硬盘故障的机器学习算法。这些工作大部分都集中在硬盘故障的主动检测上,可以预先检测硬盘故障,并给出二进制的结果,将硬盘确定为健康盘和故障盘。近年来,研究者尝试使用其他统计学和机器学习方法结合来解决硬盘故障预测问题。李静等人使用决策树(DT)和梯度提升回归树(CBRT)两种模型对硬盘进行了故障预测,在168196块硬盘的实际数据集上进行实验,最终DT在误判率低于0.01%的情况下,取得了超过93%的预测准确率,CBRT在不出现误判率的情况下,取得了90%的预测准确率。王梓杰等人提出一种基于主成分分析(PCA)与随机森林算法的轴承故障趋势预测方法,把预测结果与BP神经网络模型预测的结果进行对比,结果表明随机森林在故障趋势预测上在精度相较于BP神经网络有显著提高,是一种有效的故障趋势预测方法。史干东等人使用随机森林算法对异步电动机转子断条进行故障诊断,经实验得出该方法性能良好。RajhansGondane等人使用概率随机森林对不同数据集进行分类实验,在许多基准数据集上报告的实验结果表明,与随机森林相比,提出的概率随机森林能够实现更好的性能。杨冬英为解决在故障诊断中数据不均衡的问题提出了一种精确度加权随机森林算法,经实验得出该算法简化随机森林计算的复杂度,加快程序运行,降低故障诊断的错误率。
技术实现思路
技术方案,为了解决上述
技术介绍
中的技术问题:本专利技术的第一目的是提供一种基于变权重随机森林的硬盘故障预测方法,包括:步骤一:数据预处理:考虑到决策树的节点分裂信息值可能为0的情况,提出分裂信息值与分裂信息平均值之和来代替单一的分裂信息值。步骤二:根据精度A和多样性值K选取优秀的决策树。在随机森林预测模型的构建过程中,随着决策树的数量增加,并不会影响整体模型产生过拟合现象,且预测效果并不会随着决策树数量的增加而变得更好。但是当决策树数量增加到一定数量时,会影响随机森林整体模型的运行效率,从而影响最终的分类结果。故而选取性能较优的决策树,去除性能不理想的决策树是十分必要的。步骤三:根据决策树Ti的分类准确率计算其权重w(Ti)。步骤四:构建变权重随机森林模型对硬盘进行预测。优选地:步骤一的计算方法如下:其中,SplitInfo(D)表示节点D的分裂信息,计算公式为:Gain(D,vi)表示节点D的信息增益,计算公式为:gain(D,vi)=info(D)-info(D,vi)(3)info(D)=-plog2(p)-qlog2(q)(4)其中,info(D)表示节点D上的信息熵,info(D,vi)表示此次分裂得到的子节点上的信息熵之和;p、q满足条件p+q=1,分别表示包含在节点D内的两类数据样本的分布比例。本专利的第二专利技术目的是提供一种基于变权重随机森林的硬盘故障预测系统,包括:数据预处理模块:考虑到决策树的节点分裂信息值可能为0的情况,提出分裂信息值与分裂信息平均值之和来代替单一的分裂信息值。选取模块:根据精度A和多样性值K选取优秀的决策树。权重计算模块:根据决策树Ti的分类准确率计算其权重w(Ti)。预测模块:构建变权重随机森林模型对硬盘进行预测。本专利的第三专利技术目的是提供一种实现上述基于变权重随机森林的硬盘故障预测方法的计算机程序。本专利的第四专利技术目的是提供一种实现上述基于变权重随机森林的硬盘故障预测方法的信息数据处理终端。本专利的第五专利技术目的是提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述的基于变权重随机森林的硬盘故障预测方法。本专利技术的优点及积极效果为:通过采用上述技术方案,本专利技术具有如下的技术效果:本专利技术针对数据中心大规模硬盘发生故障所造成的灾难性后果问题,提出了一种基于变权重随机森林的硬盘故障预测方法。首先,关于数据集的处理方面,根据GainRatio值选取有效的SMART属性,简化了维度较高、冗余数据较多的复杂原始数据集。然后,根据精度和多样性值选取决策树并对其分配权重,来组成变权重随机森林模型对硬盘进行故障预测。最后,进行可行性分析。实验结果达到93.12%的故障检测率和0.008%的误报率,相较于其他机器学习模型,以使用同一数据集为前提,提高了故障检测率的同时,大大降低了误报率,与其他现有方案相比具有一定的优越性,为硬盘故障的预测问题提供了新的解决思路。同时,大大延长了故障硬盘的提前预测时间,为之后的有效数据迁移提供了充足的时间,从而达到了保护数据的目的。附图说明图1为本专利技术优选实例的流程图;图2为本专利技术优选实例中硬盘故障预测决策树分类示例图;图3为准确率和误报率随决策树个数变化示意图;图4为准确率和误报率随特征属性数量变化示意图。具体实施方式为能进一步了解本专利技术的
技术实现思路
、特点及功效,兹例举以下实施例,并配合附图详细说明如下。请参阅图1和图2,具体方案为:一种基于变权重随机森林的硬盘故障预测方法,包含下列步骤:步骤一:数据预处理:考虑到决策树的节点分裂信息值可能为0的情况,提出分裂信息值与分裂信息平均值之和来代替单一的分裂信息值。计算方法如下:其中,SplitInfo(D)表示节点D的分裂信息,计算公式为:Gain(D,vi)表示节点D的信息增益,计算公式为:gain(D,vi)=info(D)-info(D,vi)(3)info(D)=-plog2(p)-qlog2(q)(4)其中,info(D)表示节点D上的信息熵,info(D,vi)表示此次分裂得到的子节点上的信息熵之和;p、q满足条件p+q=1,分别表示包含在节点D内的两类数据样本的分布比例。根据GainRatio值,表1列出了所挑选的基本属性。表1数据集保留的基本SMART属性步骤二:根据精度A和多样性值K选取优秀的决策树。在随机森林预测模型的构建过程中,随着决策树的数量增加,并不会影响整体模型产生过拟合现象,且预测效果并不会随着决策树数本文档来自技高网
...

【技术保护点】
1.一种基于变权重随机森林的硬盘故障预测方法,其特征在于,包括如下步骤:/n步骤一:数据预处理:决策树的节点分裂信息值可能为0,将分裂信息值与分裂信息平均值之和来代替单一的分裂信息值;/n步骤二:根据精度A和多样性值K选取决策树T

【技术特征摘要】
1.一种基于变权重随机森林的硬盘故障预测方法,其特征在于,包括如下步骤:
步骤一:数据预处理:决策树的节点分裂信息值可能为0,将分裂信息值与分裂信息平均值之和来代替单一的分裂信息值;
步骤二:根据精度A和多样性值K选取决策树Ti;
步骤三:根据决策树Ti的分类准确率计算其权重w(Ti);
步骤四:构建变权重随机森林模型对硬盘进行预测。


2.根据权利要求1所述基于变权重随机森林的硬盘故障预测方法,其特征在于,所述数据预处理的计算方法如下:



其中,SplitInfo(D)表示节点D的分裂信息,计算公式为:



Gain(D,vi)表示节点D的信息增益,计算公式为:
gain(D,vi)=info(D)-info(D,vi)(3)
info(D)=-plog2(p)-qlog2(q)(4)



其中,info(D)表示节点D上的信息熵,info(D,vi)表示此次分裂得到的子节点上的信息熵之和;p、q满足条件p+q=1,分别表示包含在节点D内的两类数据样本的分布比例。


3.根据权利要求2所述基于变权重随机森林的硬盘故障预测方法,其特征在于,在步骤二中,以个体的精度和多样性为准选取性能优的决策树;计算方法如下:
首先找到一个树集TA,其精度高于或等于单棵树平均精度为A的森林T={T1,T2,T3,...,Tn};







为决策树Ti的精度;
然后找到一个树集TD,其多样性高于或等于单棵树平均多样性值是K的森林;







为决策树Ti的多样性值。


4.根据权利要求3所述基于变权重随机森林的硬盘故障预测方法,其特征在于,在步骤三中,权重分配和决策树预测准确率成正比;计算公式如下:






其中,Accu(Ti)表示决策树Ti的分类准确率,Dtr为准确预测到的故障硬盘数目,Dt为实际上的故障硬盘数目。


5.一种基于变权重随机森林的硬盘故障预测系统,其特征在于:包括:
数据预处理模块:决策树的节点分裂信息值可能为0,将分裂信息值...

【专利技术属性】
技术研发人员:李国常甜甜
申请(专利权)人:中国民航大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1