一种基于变点小波法的硬盘失效分析方法技术

技术编号:29400271 阅读:45 留言:0更新日期:2021-07-23 22:37
本发明专利技术公开了一种用于提取硬盘运行状况的变点小波方法,首先时序化硬盘运行状况并剔除常量,生成硬盘SMART时序特征;其次用线性内插法填充时序特征的空缺值;其二用归一化方式等值化时序特征;其三分解出硬盘SMART时序特征的小波;其四并以可视化方式呈现小波形态的不同频率;最后用卷积网络与长短记忆网络验证变点小波具有表征硬盘失效的有效性。该方法不仅能处理含缺失值的硬盘运行状况日志还能提取出具有指示硬盘失效的变点小波特征。从而实现从硬盘运行状况日志中提取小波,用小波预测硬盘的健康状况,获得了提高预测准确率和精准率的技术效果。

【技术实现步骤摘要】
一种基于变点小波法的硬盘失效分析方法
本专利技术涉及一种用于提取云服务器中硬盘运行状况的变点小波方法,该方法属于大数据挖掘的

技术介绍
硬盘运行状况日志是记录硬盘从启用到死亡的运行状态的信息,用SMART(Self-MonitoringAnalysisandReportingTechnology,简称SMART)特征值表示硬盘运行的状态。而硬盘运行状况日志中的SMART特征信息主要是由制造商提供,当前尚不能直接从SMART特征中了解硬盘失效前表现出的突变症状。硬盘失效给供应商和用户带来巨大的经济损失,硬盘失效不仅会导致用户的数据不可用,甚至永久性的丢失数据,还会导致服务器宕机,且已有研究指出硬盘失效是导致服务器失效的主要原因。硬盘失效有两种情况,一种是突然失效,另一种是随着时间的增长逐渐失效。变点是指样本序列在某特性上的观察值发生异常变化的样本位置,这种突然变化往往反映事物的某种质的变化。目前分析变点特性的硬盘失效特征方法,主要有两种,第一种是基于统计方法分析硬盘运行状况,如用贝叶斯变点检测、参数估计等来揭示硬盘运行状况数据集中的均值、方差、趋势、概率等突变;第二种是用机器学习方法建立回归模型,拟合硬盘失效特征的衰退过程。然而在不同的时间维度和空间维度上硬盘的失效特征值都是非均匀随机分布,虽然用传统的统计方法从均值、方差、趋势、概率等角度分析变点特征,取得一定效果,但由于传统的统计方法主要依靠假设检验理论,若假设不成立,则很难用传统的统计方法对失效特征建模。且硬盘运行状况日志中存在严重的数据不平衡和空缺值问题,数据不平衡是指失效硬盘数量与正常硬盘数量的比例严重失衡;空缺值是指日志记录中含有空值。因此现有的分析变点特性方法尚不能直接处理含空缺值的硬盘运行状况日志。如何从硬盘运行状况日志中提取硬盘失效的重要特征,是本专利技术有待解决的技术问题。
技术实现思路
本专利技术的目的是提取具有指示性的变点小波特征来表征硬盘失效。为了解决现有技术的问题,本专利技术提出一种基于变点小波法的硬盘失效分析方法。具体步骤有:解读硬盘运行状况日志,明确硬盘运行状况日志的每一个记录的各字段含义的步骤;剔除硬盘运行状况日志中的常量,并将硬盘运行状况SMART特征值按其采样的时间,先后顺序排列,生成可用的时序特征的处理步骤;填充空缺值,计算空缺值的前后两个位置上值的平均值,作为空缺位的值的处理步骤;用最大-最小值的归一化方法,等值化时序特征的处理步骤;用小波变换方法,提取时序特征的变点小波的处理步骤;以可视化方式呈现不同频率下的变点小波的形态的处理步骤;验证变点小波具有预示硬盘失效的显著性。本专利技术基于变点小波法的硬盘失效分析方法的优点在于:①将硬盘运行状况SMART特征值按其采样的时间先后顺序排列,生成可用的时序特征。②用线性内插法填充时序特征的空缺值,插入的值更接近时序特征的常态。③用最大-最小值的归一化方法,等值化时序特征,使特征之间具有可比性。④把硬盘运行状况的时序特征看作是信号,从时频域角度分析硬盘时序特征的变点小波来表征硬盘失效。⑤以可视化方式呈现不同频率下的变点小波的形态,更直观的观察变点小波。⑥用卷积与长短记忆网络(CNN+LSTM)模型验证变点小波具有预示硬盘失效的显著性。附图说明图1是硬盘运行状况日志。图2是本专利技术提取变点小波的框架流程图。在图2中,先读取硬盘运行状况记录;然后依据硬盘运行状况记录中的采集时间,对硬盘运行状况记录进行排序,得到时序特征日志;检测时序特征日志是否存在空缺值,若存在空缺值,则采用线性内插法补缺日志,得到完整的时序特征日志;对所述完整的时序特征日志进行归一化,得到等值化的时序特征日志;对等值化的时序特征日志进行小波变换,得到含突变点的小波序列;使用二维直角坐标系可视化变点小波序列的形态,得到变点小波形态的图片;最后,对含突变点的小波序列用卷积网络与长短记忆网络模型进行验证,证实变点小波的有效性。图3是本专利技术预处理硬盘运行状况日志的smart特征的流程图。在图3中,其思路是依据判定规则,找出不符合判定规则的硬盘运行状况日志中的信息项,并剔除硬盘运行状况日志中的该信息项,仅保留符合判定规则的信息项,作为有效特征。所述流程具体如下:输入硬盘运行状况日志,首先遍历硬盘运行状况日志中的所有信息项;然后依次检测出所述硬盘运行状况日志中信息项值恒为空或始终不变的信息项,并剔除所述硬盘运行状况日志中该信息项;其次对于信息项值非恒空且非常量的信息项,再检测该信息项是否含空缺值,若该信息项含空缺值,则采用线性内插法填充该信息项的空缺值;最后对非空且非常量的信息项进行归一化,得到有效特征集合。图4是本专利技术smart_7的空缺值填充效果图。图5是本专利技术smart_190的变点小波形态图。图6是本专利技术smart_242的变点小波形态图。具体实施方式下面将结合附图对本专利技术做进一步的详细说明。本专利技术处理的对象是硬盘运行状况日志,每一条硬盘运行状况日志是来源于云存储服务商BackBlaze提供的B2云存储,每年BackBlaze会发布各种型号硬盘运行的记录,其中硬盘的制造商包括希捷、西数、东芝等。BackBlaze官网地址https://www.backblaze.com/b2/hard-drive-test-data.html#downloading-the-raw-hard-drive-test-data。本专利技术借助计算机硬件,且软件采用Python语言开发,使用MySQL作为数据库支撑,仿真环境为IntellijIDEA(版本号2020.1)编译器。仿真环境为matlab(版本号7.13)。计算机是一种能够按照事先存储的程序,自动、高速地进行大量数值计算和各种信息处理的现代化智能电子设备。最低配置为CPU2GHz,内存2GB,硬盘180GB;操作系统为windows7及以上版本。硬盘运行状况日志在本专利技术中,硬盘运行状况日志,记为Log。所述Log中包括的内容信息有:日志生成时间date(单位,秒,年-月-日-时-分-秒,即yyyy-mm-dd-hh-mm-ss)、硬盘序列号serial_number、硬盘型号model、硬盘已使用的内存容量capacity_bytes(单位,字节)和硬盘运行状态smart特征SMART={smart_1,smart_2,…,smart_255,smart_256},即日志是个五元组信息所述硬盘序列号serial_number、所述硬盘型号model和所述SMART是硬盘生产商制定的。所述硬盘运行状态smart特征SMART包括有256个特征,记为SMART={smart_1,smart_2,…,smart_255,smart_256}。k表示任意一个硬盘运行状态特征,k∈[1,256],这256个特征是硬盘本文档来自技高网
...

【技术保护点】
1.一种基于变点小波法的硬盘失效分析方法,其特征在于包括有下列步骤:/n步骤一,读取硬盘运行状况日志;/n从存储服务器的硬盘中读取多个硬盘运行状况的多条日志,形成日志集合,记为DLOG;对日志集合DLOG按照日志采集时间先后进行排序,得到待处理-日志集合D_Log={Log

【技术特征摘要】
1.一种基于变点小波法的硬盘失效分析方法,其特征在于包括有下列步骤:
步骤一,读取硬盘运行状况日志;
从存储服务器的硬盘中读取多个硬盘运行状况的多条日志,形成日志集合,记为DLOG;对日志集合DLOG按照日志采集时间先后进行排序,得到待处理-日志集合D_Log={Log1,Log2,…,Logi,…,Logj,…,Logy,…,Logz};
Log1表示第一条待处理-日志;
Log2表示第二条待处理-日志;
Logi表示第i条待处理-日志;
Logj表示第j条待处理-日志;
Logy表示第y条待处理-日志;
Logz表示第z条待处理-日志;
Logi、Logj、Logy和Logz为不同的待处理-日志;
步骤二,依据硬盘序列号选取出属于同一硬盘中的日志;
依据硬盘序列号serial_number从步骤一的待处理-日志集合D_Log={Log1,Log2,…,Logi,…,Logj,…,Logy,…,Logz}中选取出属于同一硬盘的日志,记为待处理-同硬盘-日志集合D_LogHD,且

表示待处理-同硬盘-第一条日志;

表示待处理-同硬盘-第二条日志;

表示待处理-同硬盘-第i条日志;

表示待处理-同硬盘-第j条日志;

表示待处理-同硬盘-第y条日志;

表示待处理-同硬盘-第z条日志;
硬盘集合记为HD={hd1,hd2,…,hdA};hd1表示第一个硬盘;hd2表示第二个硬盘;hdA表示最后一个硬盘;
步骤三,时序化同一硬盘上的硬盘运行状况日志;
步骤301,将256个硬盘运行状态smart特征赋值到各个日志上;
每一个硬盘运行日志Log的信息会被记录于硬盘运行状态特征中的某一个smart特征或者多个smart特征中;由于硬盘运行状态smart特征SMART={smart_1,smart_2,…,smart_255,smart_256},则有:待处理-同硬盘-第i条日志携带的硬盘运行状态smart特征,记为同硬盘-smart特征的第i条日志

表示日志携带了硬盘的原始数据读取错误率smart_1特征;

表示日志携带了硬盘的读写性能smart_2特征;

表示日志携带了硬盘的读取错误重试率smart_255特征;

表示日志携带了硬盘的自动跌落保护记录smart_256特征;
步骤302,对携带smart特征的日志进行行列变换,得到时序化变换日志;
依据日志生成时间date的先后对对同硬盘-smart特征日志进行排序,然后进行行列变换处理,得到时序化-日志集合SMARTHD,记为:



简化所述时序化-日志集合为

表示日志的任意一个smart特征;

表示日志的任意一个smart特征;

表示日志的任意一个smart特征;

表示日志的任意一个smart特征;

表示日志的任意一个smart特征;

表示日志的任意一个smart特征;
步骤四,同硬盘有效特征获取;
设置了2个检测规则,分别为硬盘运行状态特征判断规则Ⅰ和硬盘运行状态特征判断规则Ⅱ;
待处理-同硬盘-第i条日志的硬盘运行状态smart特征的特征方差,记为
硬盘运行状态特征判断规则Ⅰ
检测所述时序化-日志集合为的值是否都为空;
如果都为空,则认为所述SMARTHD没提供smart特征信息,对硬盘失效分析没有贡献,则需要放弃所述SMARTHD;
如果为非空,保留所述SMARTHD,并将SMARTHD记为时序化-有效日志集合则有
硬盘运行状态特征判断规则Ⅱ
在时序化-有效日志集合中,如果的特征方差则认为所述是常量,对硬盘失效分析没有贡献,需要放弃中对应的序列,得到空序列-时序化-有效日志集合
在时序化-有效日志集合中,如果的特征方差则认为所述的值为变化量,能够为硬盘失效分析提供贡献,保留中对应的序列,同时时序化-有效日志集合不变化;
步骤401,判断同硬盘上的日志的smart特征是否全为空;
采用硬盘运行状态特征判断规则Ⅰ遍历步骤三得到的时序化-日志集合SMARTHD中256个smart特征;
如果都为空,则认为所述SMARTHD没提供smart特征信息,对硬盘失效分析没有贡献,则需要放弃所述SMARTHD;
如果为非空,保留所述SMARTHD,并将SMARTHD记为时序化-有效日志集合则有:



步骤402,对时序化-有效日志进行方差判断;
待处理-同硬盘-第i条日志的硬盘运行状态smart特征的特征方差,记为
采用硬盘运行状态特征判断规则Ⅱ遍历时序化-有效日志集合特征方差;
如果特征方差则认为所述是常量,对硬盘失效分析没有贡献,需要放弃时序化-有效日志集合中对应的序列,得到空序列-时序化-有效日志集合执行步骤501;
如果特征方差则认为所述的值为变化量,能够为硬盘失效分析提供贡献,保留时序化-有效日志集合中对应的序列,同时时序化-有效日志集合不变化;执行步骤501;
步骤五,填充硬盘运行状况日志的空缺值;
由于硬盘运行和采集记录的设备不稳定或者其他因素,导致采集到的硬盘运行状况日志不是按日志生成时间date连续采样,故需要对存在空缺的所述date进行时间连续的日志补缺硬盘运行状况日志;由同硬盘-规则II-日志集合得到同硬盘-补缺-日志集合

表示日志Log1经硬盘运行状态特征判断规则Ⅱ处理的日志;

表示日志Log2经硬盘运行状态特征判断规则Ⅱ处理的日志;

表示日志Logi经硬盘运行状态特征判断规则Ⅱ处理的日志;

表示日志Logj经硬盘运行状态特征判断规则Ⅱ处理的日志;

表示日志Logy经硬盘运行状态特征判断规则Ⅱ处理的日志;

表示日志Logz经硬盘运行状态特征判断规则Ⅱ处理的日志;

表示需要补缺的第一条日志;

表示需要补缺的第二条日志;

表示需要补缺的第i条日志;

表示需要补缺的第j条日志;

表示需要补缺的第y条日志;

表示需要补缺的第z条日志;
步骤501,检测日志生成时间;
对同硬盘-规则II-日志集合进行日志生成时间dateHD_Ⅱ检测,若所述日志没有出现日志生成时间dateHD_Ⅱ,但该条日志中包括的信息项:硬盘序列号serial_number、...

【专利技术属性】
技术研发人员:李肖坚王海兰张佳佳杨昊澎廖富梁煌
申请(专利权)人:广西师范大学
类型:发明
国别省市:广西;45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1