一种存储设备时序分类预警方法技术

技术编号:18007049 阅读:36 留言:0更新日期:2018-05-21 07:40
本发明专利技术公开了一种存储设备时序分类预警方法,包括:实时采集存储设备参数;数据清洗;进行ARIMA时序分析;logistic回归分析和预警机制输出步骤。本发明专利技术在大数据的环境背景下,根据统计得到的历史数据和硬盘SMART信息,采用ARIMA模型进行时序预测分析,分析SMART特征值与存储设备故障率的相关性,进而选取出更适合于Logistic模型的特征值进行分类预测。本发明专利技术采用机器学习的方法预测存储设备故障率,解决了存储设备最终预测中存在的分类单一性和预警低强度的问题,克服了现有技术对于磁盘的预警机制存在的滞后性和准确率低、实际预警效用不大,难以应用于大数据环境的缺陷,能预测每类预警强度发生概率大小,为数据中心环境下的实时运维和监控提供了有效的应对解决方案。

【技术实现步骤摘要】
一种存储设备时序分类预警方法
本专利技术涉及数据中心环境下的存储设备领域,其中,包括机械硬盘(HardDiskDrive,HDD)、固态硬盘(SolidStateDrive,SSD)、混合硬盘(HybridHardDisk,HHD)和盘阵列等存储设备,更具体地,涉及一种融合时序预测分析模型和逻辑斯蒂回归分类模型的对于数据中心环境下的存储设备预警机制的性能分析、负载分析的综合预测实现方法。
技术介绍
在当今的信息时代,每天都有大量新信息产生。全球总数据量以每年50%的速度增加,如今越来多的数据被存储在数据中心,存储是数据中心不可缺少的重要部分,任何数据中心数据最终都要放置到存储设备上,随着数据中心规模越来越大,需要存储的数据量也越来越大,同时,数据中心下的存储设备存在一定的异构性、复杂性、多变性,这对存储设备的高可靠性、高可用性提出了更高的要求。如果能够对数据中的存储设备故障进行预测,将会在保障数据安全、防止丢失、降低数据中心运营成本等方面带来极大价值,同时达到安全、高效的数据存储要求。在大数据环境下存储设备故障多发的情况使得用户的数据面临着较大的风险,而且由于基数太大,存储设备故障将大量发生,故障率极高,同时对于存储设备的故障预测率不高,这样使得针对数据中心环境下的存储设备故障的运维任务变得极为困难。为提高数据中心可靠性而进行的存储设备故障研究预测已成为研究热点之一。业界针对这种情况的解决方案一般是采用S.M.A.R.T.技术,全称为“Self-MonitoringAnalysisandReportingTechnology”,即“自我监测、分析及报告技术”。这是现在硬盘普遍采用的数据安全技术,是一种自动的硬盘状态检测与预警系统和规范。初期主要是通过在硬盘硬件内的检测指令对硬盘的硬件如磁头、盘片、马达、电路的运行情况进行监控、记录并与厂商所设定的预设安全值进行比较,若监控情况将或已超出预设安全值的安全范围,就可以通过主机的监控硬件或软件自动向用户作出警告并进行轻微的自动修复,以提前保障硬盘数据的安全。后来研究对象发展到SSD、HHD等存储设备上,针对SSD的指标是颗粒磨损次数(Wear-RangeData),这个参数是显示“最大磨损块和最小磨损块相差的百分比”,这对于SSD固态硬盘来说是相当重要的一个参数。针对HDD的指标是累计加电时间(PowerOnHoursCount),硬盘的通电时间越长,其故障率也就会越高,因此当硬盘的时间使用超过平均无故障时间后,就应该做好备份的准备了。目前,基于S.M.A.R.T.的阈值判定方法是硬盘厂商普遍采用的故障硬盘预测方法。但是,采用该方法时,故障硬盘的检出率通常为3-10%,故障磁盘检测率过低,实际预警效用不大。当前,已建立的模型均基于硬盘厂商的S.M.A.R.T.数据和其它环境等数据,难以应用于实际的用户集群的硬盘故障预测。在一般情况下,S.M.A.R.T只报告“状况完好”或“出现故障”两种情况,因此无法给出更加具体的预警报告强度,报告比较单一化。进一步的,传统的S.M.A.R.T.方法针对数据中心环境下的磁盘、固态盘以及盘阵列等存储设备的负载分析和预警机制中存在一定的误差,预测的准确率难以最大程度上满足我们的实际需求,而且对于数据中心管理员日常的运维和监控也提出了很高的要求,即使在接收到预警消息的情况下也难以实施有效的应对方法,可以说是一种针对突发情况的后发应对机制,存在一定的滞后性和无效性。通过S.M.A.R.T.技术,确实可以对硬盘潜在故障进行有效预测,提高数据的安全性。但我们也应该看到,S.M.A.R.T.技术并不是万能的,它只能对渐发性的故障进行监测,而对于一些突发性的故障,如盘片突然断裂等,硬盘再怎么smart也无能为力了,不具有实时监测的功效,S.M.A.R.T具有被动性的检测、预警功能,而且S.M.A.R.T信息的记录没有周期性。不能进行序列化查询和优化。近年来,研究者同样采用了一些基于硬盘的SMART属性的机器学习方法来对硬盘建立故障预测模型,对硬盘可能发生的故障进行提前预测,主要方法是根据存储设备的状态数据,建立分类模型,再根据分类模型将未知状态的存储根据其状态数据进行分类,一类是正常,一类是即将故障,虽然这种预测机制已经达到了较高的预测精度,并取得了比较好的预测效果,但是误报率(FalseAlarmRatealse,FAR)还是太高。而且之前的研究大部分使用单分类器模型,由于硬盘的故障属于一类小概率事件,硬盘数据分布不平衡,使得这些模型不能很好应用在现实世界的数据中心。Hamerly的论文《Bayesianapproachestofailurepredictionfordiskdrives》中使用硬盘内部的SMART属性基于两种贝叶斯算法对硬盘的故障进行了预测。他们首先将硬盘的故障预测问题当做一种异常检测,使用期望最大化算法来训练一个贝叶斯聚类混合模型;第二种方法是使用一个监督学习的朴素贝叶斯分类器,这种方法足够简单,因此可以将其固化在硬盘动器中。在误报率为1%的情况下,基于期望最大化的朴素贝叶斯模型取得的故障检测率为35.40%,使用朴素贝叶斯分类器对硬盘的故障检测率为55%,虽然其使用的模型比较简单,但是其预测的准确率不高,而且贝叶斯模型中的数据独立性假设前提很难满足,是一种理想情况下模型假设,很难真正应用到实际的生产活动当中。Hughes等人的论文《Improveddisk-drivefailurewarningsReliability》中提出了两种统计学方法用来提高SMART算法的故障检测率。他们利用硬盘驱动器内部的SMART属性,硬盘中原本的算法是依据最大误差阈值,然而Hughes发现许多SMART属性都是非参数分布的,这促使他们采用了秩和检验统计来对硬盘进行故障预测。秩和检验统计在硬盘内部实现也相当简单,同时Hughes提出了两种不同的策略:对多个属性进行秩和检验统计以及对单个属性进行秩和检验统计,之后对单个属性产生的结果再进行“或"运算以达到最终的结果。其使用的模型得到的故障检测率在误报率仅为0.2%的前提下比单纯依靠阈值算法的故障检测率高出3.4倍,然而最高的故障检测率仅达到40.60%,这种模型得到的故障检测率还是太低,仍然难以应用到实际的数据中心生产环境当中。最近,Zhu等人的论文《Proactivedrivefailurepredictionforlargescalestoragesystems》中提出了基于硬盘的SMART属性而使用人工神经网络(AnificialNeuralNetworks,ANN)进行了故障预测,通过后向传播算法来训练神经网络,并提出了一些策略来提高硬盘故障预测的准确率,相比之前的算法在故障检测率上取得了很大的提升,在误报率为0.48%的情况下,故障检测率达到了94.62%,但训练该模型需要的时间复杂度较高,同时对相应的训练环境要求较高,难以大规模应用到数据中心环境中去,影响了其进一步的预测效率。南开大学安洲的《基于随机森林的硬盘故障预测算法的研究》一文中,根据硬盘SMART数据分布不平衡的特点,提出了一种基于随机森林算法的硬盘故障预测模型,保证了在故障误报率低的情况下,提高故障的检本文档来自技高网...
一种存储设备时序分类预警方法

【技术保护点】
一种存储设备时序分类预警方法,其特征在于,包括如下步骤:(1)实时采集存储设备参数,取得历史统计数据所述存储设备参数从存储设备的SMART信息取得;包括存储设备的基本属性信息:CPU主频,缓存和负载百分比,负载大小,内存容量大小,内存实时运行状态下容量使用大小,HDD I/O的大小,SSD I/O的大小,HDD容量大小和实时容量使用大小,SSD容量大小和实时容量使用大小;所述历史统计数据包括上面所列的参数和故障发生日志,可根据SMART数据文件统计取得;(2)平稳性判断按SMART信息的不同类型属性值,对步骤(1)获得时间序列数据中取一组,作为特征数据进行平稳性判断;若特征数据是平稳的转步骤(3);若特征数据非平稳,则进行平稳化处理:采用差分运算,对特征数据进行d阶差分运算,实现平稳化处理;所述阶数d即为使特征数据变为平稳序列时所对应的差分次数;(3)噪声检验对平稳化后的特征数据进行噪声检验,如果未通过噪声检验,说明该特征数据的有用信息已经被提取完毕,应当舍弃该组数据,转步骤(2);否则,转步骤(4);所述噪声检验方法包括纯随机性检验和方差齐性检验;纯随机性采用构造检验统计量,优选Q统计量;方差齐性检验采用最小二乘法;(4)进行ARIMA时序分析,根据时间序列模型的识别规则,建立相应的模型,得到的模型参数(m,q)值的具体大小;对得到的经过噪声检验的特征数据,分别求得其自相关系数和偏自相关系数,并对自相关图和偏自相关图进行分析,得到最佳的阶层m和阶数q;若平稳序列的偏相关函数是m阶截尾的,而自相关函数是拖尾的,可断定序列适合AR(m)模型;若平稳序列的偏相关函数是拖尾的,而自相关函数是q阶截尾的,则可断定序列适合MA(q)模型;若平稳序列的偏相关函数和自相关函数均是拖尾的,则序列适合ARMA(m,q)模型;(5)logistic回归分析采用Logistic回归分类算法进行处理,用经步骤(4)ARIMA模型时序分析输出的时间序列值作为输入自变量;用人工预先加上标签预警概率p作为输出因变量;所述预警概率p分类,即存储设备的预警强度分类,指按p大小分成5类,分别是“正常”、“初级预警”、“中级预警”、“高级预警”和“最高预警”;(6)误差分析根据Logistic回归分类算法中得到的分类结果数据与实际统计得到的标签结果数据进行比较,进行误差分析,不断地训练和优化整个有监督的机器学习模型;若误差分析结果满足优化完成条件,则输出模型的具体参数,转步骤(7);否则调整机器学习模型的参数,转步骤(5),开始新一轮的训练;所述误差分析是指通过计算模型的预测精度统计量指标,用于调整机器学习模型的参数,从而改善模型预测精度统计量指标;所述优化完成条件是指预测精度统计量指标达到预定指标,此时对数损失函数和平方根误差这两个衡量模型预测精度统计量最小;(7)预警机制输出采用所述优化过的机器学习模型对当前存储设备的特征数据进行预测分类;对Logistic分类算法的二元输出,用softmax函数多元分类,从而实现多元分类;得到发生预警时的具体量化强度大小,得到最终预警的结果,输出结果;...

【技术特征摘要】
1.一种存储设备时序分类预警方法,其特征在于,包括如下步骤:(1)实时采集存储设备参数,取得历史统计数据所述存储设备参数从存储设备的SMART信息取得;包括存储设备的基本属性信息:CPU主频,缓存和负载百分比,负载大小,内存容量大小,内存实时运行状态下容量使用大小,HDDI/O的大小,SSDI/O的大小,HDD容量大小和实时容量使用大小,SSD容量大小和实时容量使用大小;所述历史统计数据包括上面所列的参数和故障发生日志,可根据SMART数据文件统计取得;(2)平稳性判断按SMART信息的不同类型属性值,对步骤(1)获得时间序列数据中取一组,作为特征数据进行平稳性判断;若特征数据是平稳的转步骤(3);若特征数据非平稳,则进行平稳化处理:采用差分运算,对特征数据进行d阶差分运算,实现平稳化处理;所述阶数d即为使特征数据变为平稳序列时所对应的差分次数;(3)噪声检验对平稳化后的特征数据进行噪声检验,如果未通过噪声检验,说明该特征数据的有用信息已经被提取完毕,应当舍弃该组数据,转步骤(2);否则,转步骤(4);所述噪声检验方法包括纯随机性检验和方差齐性检验;纯随机性采用构造检验统计量,优选Q统计量;方差齐性检验采用最小二乘法;(4)进行ARIMA时序分析,根据时间序列模型的识别规则,建立相应的模型,得到的模型参数(m,q)值的具体大小;对得到的经过噪声检验的特征数据,分别求得其自相关系数和偏自相关系数,并对自相关图和偏自相关图进行分析,得到最佳的阶层m和阶数q;若平稳序列的偏相关函数是m阶截尾的,而自相关函数是拖尾的,可断定序列适合AR(m)模型;若平稳序列的偏相关函数是拖尾的,而自相关函数是q阶截尾的,则可断定序列适合MA(q)模型;若平稳序列的偏相关函数和自相关函数均是拖尾的,则序列适合ARMA(m,q)模型;(5)logistic回归分析采用Logistic回归分类算法进行处理,用经步骤(4)ARIMA模型时序分析输出的时间序列值作为输入自变量;用人工预先加上标签预警概率p作为输出因变量;所述预警概率p分类,即存储设备的预警强度分类,指按p大小分成5类,分别是“正常”、“初级预警”、“中级预警”、“高级预警”和“最高预警”;(6)误差分析根据Logistic回归分类算法中得到的分类结果数据与实际统计得到的标签结果数据进行比较,进行误差分析,不断地训练和优化整个有监督的机器学习模型;若误差分析结果满足优化完成...

【专利技术属性】
技术研发人员:陈进才卢萍陈楠王少兵刘鑫
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1