System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种SSD盘的亚健康管理与故障预测方法技术_技高网

一种SSD盘的亚健康管理与故障预测方法技术

技术编号:42601784 阅读:31 留言:0更新日期:2024-09-03 18:12
本发明专利技术属于存储技术领域,具体涉及一种SSD盘的亚健康管理与故障预测方法,首先对不同厂商提供不同配置文件,根据配置文件信息进行特征的提取和展示;然后根据SSD磁盘使用状态对SSD磁盘进行分类,并根据SSD磁盘的分类的不同类别分别进行SSD磁盘数据预处理以及动态和集成数据特征选择;再通过集成的改进Isolation forest模型对磁盘故障进行预测;最后将集成的改进Isolation forest模型预测出故障的SSD磁盘经过Sieve进行故障类型预测。通过上述方法使得对SSD磁盘的故障预测能够广泛应用于所有磁盘厂商,特征选择灵活性高,所用模型训练成本低,并且能够准确快速预测故障类型的缺陷。

【技术实现步骤摘要】

本专利技术属于存储,尤其涉及一种ssd盘的亚健康管理与故障预测方法。


技术介绍

1、随着数字化时代的到来,我们的身边无时无刻不在产生大量的信息,相应的越来越多的数据被数字化存储,包括文档、照片、音频、视频等各种形式的信息。ssd(固态硬盘)是目前使用广泛的存储设备,它使用闪存芯片来存储数据,与传统的机械硬盘不同,它没用机械部件,因此读写数据更快、抗震性更好,能耗更低,同时也更轻便,已被广泛的应用于各种计算机和移动设备中。

2、在ssd硬盘使用过程中,需要对其进行亚健康管理和故障预测,目前针对ssd盘的亚健康管理和故障预测,均需结合磁盘的smart数据进行分析。因市面上ssd盘厂商众多,而不同厂商尤其是nvme盘对磁盘的指标报告在数量和含义上都是不尽相同的。因此想要准确的对ssd盘进行亚健康检查和故障预测,必须结合相应厂商综合考虑,且对不同厂商应该灵活处理,以便处理一些新兴厂商的情况。因获取到的指标信息数量众多,其中不乏一些对磁盘亚健康管理和故障预测无效或冗余的指标,因此在预测或数据展示前必须进行特征选择。目前在特征选择方面,已经采用多种特征选择方式以选择出有效指标以供故障预测模型,由于都是事先选择好的指标,存在对一些供应商磁盘指标不足或有其它新的有效指标的处理情况不足,使得在指标的自动化选取及通用性上还有不足。

3、在故障预测的模型方面,目前主要有机器学习和神经网络相关方法。而对神经网络方法而言,因其是一种黑盒模型缺乏可解释性,而这对实际应用中的故障预测而言难以对预测结果做出合理解释故难以实际应用落地。而在机器学习方面,随机森林等相关方法在可解释性和预测准确性上都取得了不错的效果,但目前都是根据大型数据集训练模型,由于硬盘故障本身就是小概率事件故会出现样本极度不平衡等问题需要采用下采样等方式去解决。

4、由于在实际生产环境中,磁盘的故障出现是小概率且复杂的,目前存在以下问题:故障类型未知;极大的依赖于人工标记;数据集稀少;在低计算负载下难以实现对故障预测的较高精度等。监督学习的方式依赖于准确且标记好的数据集对模型或相关方法进行训练,需要充足的正负样本导致相关模型能识别出的异常类型有限且时延性有较高限制,并且现有的磁盘故障预测的准确率和灵敏度较低。

5、针对目前ssd磁盘的故障预测存在的上述问题,本专利技术提出了一种ssd盘的亚健康管理与故障预测方法。


技术实现思路

1、本专利技术的目的在于提供一种ssd盘的亚健康管理与故障预测方法,用以解决上述技术问题。

2、为解决上述技术问题,本专利技术采用的技术方案如下:

3、一种ssd盘的亚健康管理与故障预测方法,包括以下步骤:

4、s1:对不同厂商提供不同配置文件,根据配置文件信息进行特征的提取和展示;

5、s2:根据ssd磁盘使用状态对ssd磁盘进行分类,并根据ssd磁盘的分类的不同类别分别进行ssd磁盘数据预处理以及动态和集成数据特征选择;

6、s3:通过集成的改进isolation forest模型对磁盘故障进行预测;

7、s4:将集成的改进isolation forest模型预测出故障的ssd磁盘经过sieve进行故障类型预测。

8、优选的,步骤s1包括以下具体步骤:

9、s11:根据不同厂商提供的操作文档配置配置文件,包括byte offset、attribute、所属类别以及相关函数;

10、s12:根据磁盘的类型和厂商信息读取配置文件进行数据收集;

11、s13:根据获取到的指标进行筛选,其中筛选指的是去除包括冗余类信息、基本信息以及表明健康与否的字段信息,所述基本信息包括产品型号、厂家信息、产品容量。

12、优选的,在步骤s11中的相关函数指的是将一些供应商的字符码信息转化成经过处理的便于理解的string形式,以及对一些指标如温度进行单位的统一的函数,以达到对不同厂商磁盘进行统一管理的目的,步骤s13中的各指标划分为以下类别:基本信息、温度状态、电源状态、电容状态、存储单元、ftl、接口状态、性能指标、操作详情、冗余数据等,其中类内还可进行子类划分,需在配置文件中做好规定,所述指标根据不同厂商情况做增加或删改。

13、优选的,步骤s2包括以下具体步骤:

14、s21:根据磁盘使用时间将磁盘进行分类,分为早期磁盘和后期磁盘;

15、s22:对特征数据进行预处理,其中预处理为将特征数据进行归一化处理;

16、s23:对特征数据进行选择,以供集成的改进isolation forest模型的训练及作为模型输入。

17、优选的,在步骤s23中,在特征数据的选择过程中将pe次数作为核心因子,建立各指标间的相关系数,并且首先选取与pe次数相关性最高的两个指标,再分别选取与这两个指标相关性最高的三个指标且去除已选取过的指标,得到最终动态选择的8个指标作为识别是否为故障盘的最终指标。

18、优选的,在进行相关性计算时,分别采用filter、wrapper、embedded方法,分别应用pearson、spearman、lasso regularization、ridge regression,判别策略,最终将所得结果进行加权平均,以尽可能精准得选取中最终用于故障预测的特征,并且对于早期磁盘和后期磁盘的特征数据选择是分别进行的。

19、优选的,步骤s3包括以下具体过程:

20、s31:根据选择的特征数据对扩展孤立森林模型进行训练;

21、s32:根据选择的特征对分片选取准则孤立森林(isolation forest split-selection criterion,sciforest)模型进行训练;

22、s33:通过集成孤立森林(integrated isolated forest,iif)模型得到最终的模型,并用于磁盘故障预测。

23、优选的,在步骤s31的对扩展孤立森林模型进行训练中使用具有随机斜率的超平面对数据进行切片,对于n维数据,在训练阶段采用随机选择的方式选取一个斜率切割分支,具体标准如下:

24、;

25、其中为硬盘的特征向量,为法向量,为随机分割点;

26、在步骤s32中对分片选取准则孤立森林模型进行训练时,分片选取准则孤立森林算法利用多个特征进行组合划分并选取其中的最佳划分超平面,在构建树的过程中随机选择q个特征属性,将所述特征属性投影在一个超平面,其表达式为:

27、;

28、其中,代表所有特征属性,为随机选出的属性,为[-1,1]间随机选取的值,为二次采样的样本集,为的第个特征属性值,为随机分割点;

29、利用sdgain(subspace distance gain)理论从t个候选的超平面中选取最优超平面;

30、最优超平面的公式如下:

31、;

...

【技术保护点】

1.一种SSD盘的亚健康管理与故障预测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种SSD盘的亚健康管理与故障预测方法,其特征在于,步骤S1包括以下具体步骤:

3.根据权利要求2所述的一种SSD盘的亚健康管理与故障预测方法,其特征在于,在步骤S11中的相关函数指的是将供应商的字符码信息转化成经过处理的string形式,以及对温度指标进行单位的统一的函数,用于对不同厂商磁盘进行统一管理,步骤S13中的各指标划分为以下类别:基本信息、温度状态、电源状态、电容状态、存储单元、FTL、接口状态、性能指标、操作详情和冗余数据,其中类内还进行子类划分,所述各指标根据不同厂商情况做增加或删改。

4.根据权利要求1所述的一种SSD盘的亚健康管理与故障预测方法,其特征在于,步骤S2包括以下具体步骤:

5.根据权利要求4所述的一种SSD盘的亚健康管理与故障预测方法,其特征在于,在步骤S23中,在特征数据的选择过程中将PE次数作为核心因子,建立各指标间的相关系数,并且首先选取与PE次数相关性最高的两个指标,再分别选取与所述两个指标相关性最高的三个指标且去除已选取过的指标,得到最终动态选择的8个指标作为识别是否为故障盘的最终指标。

6.根据权利要求5所述的一种SSD盘的亚健康管理与故障预测方法,其特征在于,在进行相关性计算时,分别采用Filter、Wrapper、Embedded方法,分别应用Pearson(相关系数)、Spearman(等级相关系数)、Lasso Regularization(套索正则化)、Ridge Regression(岭回归)判别策略,最终将所得结果进行加权平均,并且对于早期磁盘和后期磁盘的特征数据选择是分别进行的。

7.根据权利要求1所述的一种SSD盘的亚健康管理与故障预测方法,其特征在于,步骤S3包括以下具体过程:

8.根据权利要求1所述的一种SSD盘的亚健康管理与故障预测方法,其特征在于,在步骤S31的对扩展孤立森林模型进行训练中使用具有随机斜率的超平面对数据进行切片,对于N维数据,在训练阶段采用随机选择的方式选取一个斜率切割分支,具体标准如下:

9.根据权利要求8所述的一种SSD盘的亚健康管理与故障预测方法,其特征在于,其中计算平均路径长度需要遍历每一棵孤立树,若满足分割条件则传递给左分支,否则将向下移动到右分支,最终根据分支的平均路径长度来分配异常分数,为训练样本取样的样本数,则

10.根据权利要求1所述的一种SSD盘的亚健康管理与故障预测方法,其特征在于,步骤S4包括以下具体步骤:

...

【技术特征摘要】

1.一种ssd盘的亚健康管理与故障预测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种ssd盘的亚健康管理与故障预测方法,其特征在于,步骤s1包括以下具体步骤:

3.根据权利要求2所述的一种ssd盘的亚健康管理与故障预测方法,其特征在于,在步骤s11中的相关函数指的是将供应商的字符码信息转化成经过处理的string形式,以及对温度指标进行单位的统一的函数,用于对不同厂商磁盘进行统一管理,步骤s13中的各指标划分为以下类别:基本信息、温度状态、电源状态、电容状态、存储单元、ftl、接口状态、性能指标、操作详情和冗余数据,其中类内还进行子类划分,所述各指标根据不同厂商情况做增加或删改。

4.根据权利要求1所述的一种ssd盘的亚健康管理与故障预测方法,其特征在于,步骤s2包括以下具体步骤:

5.根据权利要求4所述的一种ssd盘的亚健康管理与故障预测方法,其特征在于,在步骤s23中,在特征数据的选择过程中将pe次数作为核心因子,建立各指标间的相关系数,并且首先选取与pe次数相关性最高的两个指标,再分别选取与所述两个指标相关性最高的三个指标且去除已选取过的指标,得到最终动态选择的8个指标作为识别是否为故障盘的最终指标。

6.根据权利要求5所述的一种...

【专利技术属性】
技术研发人员:王宁胡华伟赖宇钟亚君杜小华董博王皓
申请(专利权)人:四川省华存智谷科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1