一种基于SMART和性能日志的磁盘故障预测方法技术

技术编号:25396098 阅读:108 留言:0更新日期:2020-08-25 23:01
本发明专利技术涉及云存储技术领域,且公开了一种基于SMART和性能日志的磁盘故障预测方法,包括:(1)收集磁盘SMART信息、性能日志数据以及外部运行条件,利用随机森林算法进行训练,获得判断磁盘故障的特征项和判断模型。该基于SMART和性能日志的磁盘故障预测方法,利用随机森林算法获得判断磁盘是否故障的模型,相比较SMART单特征项的阙值判断,该模型综合分析多个特征项,综合判断磁盘是否故障,判断的准确性更高,通过对现有磁盘的数据变化对磁盘特征项的未来变化进行预测,再带入判断模型进行判断,提前预知未来磁盘的运行情况,帮组运维人员及时备份替换硬盘,避免数据丢失,服务器宕机,减少由此带来的经济损失。

【技术实现步骤摘要】
一种基于SMART和性能日志的磁盘故障预测方法
本专利技术涉及云存储
,具体为一种基于SMART和性能日志的磁盘故障预测方法。
技术介绍
随着信息产业的发展,大量的数据不断生成,推动了数据存储服务的发展。存储系统的稳定性与服务供应商的效益密切相关,存储系统故障会给使用者造成巨大损失。确保数据不丢失,必须首先关注云存储的安全。由于云存储中磁盘的数量规模是极其庞大的,硬盘是服务器硬件故障率高的一个部件之一,如果能提前预测到硬盘故障,就可以指导维护人员对状况进行处理,如备份数据、更换硬盘等,保证系统的正常运行,减小损失。目前,硬盘厂商基本都采用自我监测分析报告技术(S.M.A.R.T)对硬盘状态进行监测和分析,但其对故障的检测率只有3%~10%。SMART是一种磁盘自我分析检测技术,早在90年代木就基本得到了普及;它是ATA标准规定的各磁盘厂商必须遵循的标准条件之一,也是磁盘厂商普遍采用的故障磁盘预测方法。每一块硬盘在运行的时候都会将自身的若干参数记录下米:这些参数包括型号、容量、温度、密度、扇区、寻道时间、传输、误码率等。硬盘运行了几千小时后,很多内在的物理参数都会发生变化,某一参数超过报警阈值,则说明硬盘接近损坏。此时硬盘依然在工作,如果用户不理睬这个报警继续使用那么硬盘将变得非常不可靠,随时可能故障。基于SMART的阈值判定方法过于简单,在实际运行环境中故障磁盘的检测率通常为3-10故障磁盘检测率过低,实际预警效用不大。SMART信息不是实时更新的,需要一段时间才可以更新,在发生故障的时间段中可能没有刷新,因此光靠SMART信息来预测磁盘故障是不够的。
技术实现思路
针对上述
技术介绍
的不足,本专利技术提供了一种基于SMART和性能日志的磁盘故障预测方法的技术方案,通过在数据集上训练出的深度学习模型对故障进行预测,能将正确率提高到95%以上,极大提高了预测率。本专利技术提供如下技术方案:一种基于SMART和性能日志的磁盘故障预测方法,包括:(1)收集磁盘SMART信息、性能日志数据以及外部运行条件,利用随机森林算法进行训练,获得判断磁盘故障的特征项和判断模型;(2)对所述特性项的数值和时间函数图像进行拟合,获得每个特征项数值的变化模型库;(3)对正常运行的磁盘的特征项数值变化曲线与所述变化模型库曲线进行对比,选择最接近的模型预测未来N时刻的特征项预测数值;(4)将所述预测数值带入判断模型进行分析,判断N时刻磁盘是否会发生故障其故障概率;(5)返回预测结果,给出预警信息。优选的,获得所述特征项和判断模型后,利用递归算法获得特征项的重要程度排序,并根据特征项的重要性建立预测路径。优选的,所述外部运行条件包括机房温度、湿度、机器密度、机房种类、任务类型和任务量。优选的,在所述步骤(2)中,先对按照特征项的重要程度对磁盘进行分类,按照磁盘类型设置变化模型库曲线检索标签。优选的,所述预测方法在给出预测结果后对预测结果进行跟踪,收集方法判断的准确性并建立例外数据库对预测错误的结果进行数据收集。优选的,在所述步骤(1)和步骤(2)中的训练样本和测试样本均为分别抽取,且在将步骤(2)中测试样本测试数据作为检测样本对步骤(1)中的模型进行检测。优选的,所述方法用于对服务器磁盘的检测,根据服务器各个硬盘的SMART数据和IO性能日志对其磁盘是否会发生故障进行预测本专利技术具备以下有益效果:1、该基于SMART和性能日志的磁盘故障预测方法,利用随机森林算法获得判断磁盘是否故障的模型,相比较SMART单特征项的阙值判断,该模型综合分析多个特征项,综合判断磁盘是否故障,判断的准确性更高,进一步地,该方法还分析了外部条件对磁盘的影响,更进一步地提高预测的准确性。2、该基于SMART和性能日志的磁盘故障预测方法,通过对现有磁盘的数据变化对磁盘特征项的未来变化进行预测,再带入判断模型进行判断,提前预知未来磁盘的运行情况,帮组运维人员及时备份替换硬盘,避免数据丢失,服务器宕机,减少由此带来的经济损失。具体实施方式下面将对专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。一种基于SMART和性能日志的磁盘故障预测方法,包括:(1)收集磁盘SMART信息、性能日志数据以及外部运行条件,利用随机森林算法进行训练,获得判断磁盘故障的特征项和判断模型;对收集的数据进行标准化处理,随机抽取训练样本集和测试样本集,SMART信息、性能日志和外部运行条件作为特征集;有放回的选取m个特征作为特征子集,确定每个决策树上一个节点的决策结果,建立决策树;用训练样本集训练,测试样本集对其评估;集成所有的决策树进行预测,获得判断模型。(2)对所述特性项的数值和时间函数图像进行拟合,获得每个特征项数值的变化模型库,均匀的选取5-8时间序列,判断这些点的重合程度,对图像进行分类存档;(3)对正常运行的磁盘的特征项数值变化曲线与所述变化模型库曲线进行对比,选择最接近的模型预测未来N时刻的特征项预测数值;(4)将所述预测数值带入判断模型进行分析,判断N时刻磁盘是否会发生故障其故障概率;(5)返回预测结果,给出预警信息。其中,获得所述特征项和判断模型后,利用递归算法获得特征项的重要程度排序,并根据特征项的重要性建立预测路径,获得决策树上每个节点对给定预测的贡献值。其中,所述外部运行条件包括机房温度、湿度、机器密度、机房种类、任务类型和任务量,外部的运行环境对磁盘的寿命有较大的影响,综合考虑提高预测的准确性。其中,在所述步骤(2)中,先对按照特征项的重要程度对磁盘进行分类,按照磁盘类型设置变化模型库曲线检索标签,分类检测提高匹配时的计算量。其中,所述预测方法在给出预测结果后对预测结果进行跟踪,收集方法判断的准确性并建立例外数据库对预测错误的结果进行数据收集便于后期评估和改进。其中,在所述步骤(1)和步骤(2)中的训练样本和测试样本均为分别抽取,且在将步骤(2)中测试样本测试数据作为检测样本对步骤(1)中的模型进行检测。其中,上述方法用于对服务器磁盘的检测,根据服务器各个硬盘的SMART数据和IO性能日志对其磁盘是否会发生故障进行预测。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。...

【技术保护点】
1.一种基于SMART和性能日志的磁盘故障预测方法,其特征在于,包括:/n(1)收集磁盘SMART信息、性能日志数据以及外部运行条件,利用随机森林算法进行训练,获得判断磁盘故障的特征项和判断模型;/n(2)对所述特性项的数值和时间函数图像进行拟合,获得每个特征项数值的变化模型库;/n(3)对正常运行的磁盘的特征项数值变化曲线与所述变化模型库曲线进行对比,选择最接近的模型预测未来N时刻的特征项预测数值;/n(4)将所述预测数值带入判断模型进行分析,判断N时刻磁盘是否会发生故障其故障概率;/n(5)返回预测结果,给出预警信息。/n

【技术特征摘要】
1.一种基于SMART和性能日志的磁盘故障预测方法,其特征在于,包括:
(1)收集磁盘SMART信息、性能日志数据以及外部运行条件,利用随机森林算法进行训练,获得判断磁盘故障的特征项和判断模型;
(2)对所述特性项的数值和时间函数图像进行拟合,获得每个特征项数值的变化模型库;
(3)对正常运行的磁盘的特征项数值变化曲线与所述变化模型库曲线进行对比,选择最接近的模型预测未来N时刻的特征项预测数值;
(4)将所述预测数值带入判断模型进行分析,判断N时刻磁盘是否会发生故障其故障概率;
(5)返回预测结果,给出预警信息。


2.根据权利要求1所述的一种基于SMART和性能日志的磁盘故障预测方法,其特征在于:获得所述特征项和判断模型后,利用递归算法获得特征项的重要程度排序,并根据特征项的重要性建立预测路径。


3.根据权利要求1所述的一种基于SMART和性能日志的磁盘故障预测方法,其特征在于:所述外部运行条件包括机房温度、湿度、机器密度、机房种类...

【专利技术属性】
技术研发人员:徐敏胡聪刘翠玲洪德华张翠翠王鹏孙佳丽薛晓茹王国梁
申请(专利权)人:国网安徽省电力有限公司信息通信分公司国家电网有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1