System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种盘设备全生命周期故障预测方法技术_技高网

一种盘设备全生命周期故障预测方法技术

技术编号:40507309 阅读:10 留言:0更新日期:2024-03-01 13:22
本发明专利技术公开了一种盘设备全生命周期故障预测方法,属于数据存储领域,包括:从目标类型的故障盘设备及正常盘设备的历史数据中收集与盘故障相关的多维特征数据得到样本集;利用样本集训练机器学习模型;若样本集为早期小样本数据集,则获取与样本集格式相同的辅助数据集,并将样本集中的部分样本与辅助数据集作为训练集,将样本集中的剩余样本作为测试集,对二分类模型进行训练和测试;若样本集为小样本数据集且其中的盘设备不是早期盘设备,则利用样本集中的正常样本训练单样本分类模型。本发明专利技术能解决现有方法对盘设备不同生命周期阶段内数据利用不充分的问题,在样本数据缺乏的情况下尽可能提高盘设备故障预测的精度。

【技术实现步骤摘要】

本专利技术属于数据存储领域,更具体地,涉及一种盘设备全生命周期故障预测方法


技术介绍

1、盘设备是数据存储最常用的设备之一,随着存储容量的不断增长,盘故障已成为常态而非例外情况。盘故障处理不当可能会带来灾难性后果,如果没有合适的数据保护措施,盘故障不仅会导致停机,还会导致数据永久性丢失,造成不可逆的经济和糟糕的用户体验。盘故障预测是保障数据可靠性的重要技术手段。因此,为了提高存储系统的可靠性与可用性,以盘设备故障预测技术为主的主动容错技术越来越受到研究人员的关注。

2、目前流行的盘故障预测方法有统计学预测和边缘样本密度度量方法。统计学预测方法主要有两种,其中一种将盘故障预测视为一种异常检测场景,并使用维尔克松秩和检验(wilcoxon rank sum test)和单变量检验(single variate test)方法,在一个包含3744个硬盘且时间跨度为2~3个月的硬盘可靠性测试数据集上取得了60%的召回率(fdr)和0.5%的误报率(far)。另外一种是异常检测,提出使用马氏距离(mahalanobisdistance,md)来进行盘故障预测。首先使用md方法将输入的硬盘smart属性转换成一维索引,然后通过box-cox方法变换为高斯变量,最后通过定义一个适当的阈值来检测出现异常的硬盘,并且用一个滑动窗口跟踪硬盘的异常变化情况。如果在一段时间内硬盘异常出现的数量足够多,则认为硬盘即将发生故障。通过在一个小而平衡的数据集上进行测试,该方法最终取得了68%的fdr,far低至0%。边缘样本密度度量方法通过搜索每个样本的最近邻点来构建隔离区域,然后通过欧几里得距离(euclidean distance)测量每个隔离区域内的测试点的局部异常和全局异常。测试样本的全局异常程度由两个最近的训练点所在隔离区域的半径之比度量。测试样本的局部度异常程度由测试点到训练点隔离区域边缘的最近距离与隔离区域半径的比值度量。结合两次测量的结果就可以得到测试点的异常分数。在公共硬盘数据集的实验证明该方法优于inne、iforest和lof等典型的无监督算法,fdr最多提高了7%,且最高的fdr能达到70.1%。

3、从上述研究成果可以看出,在盘设备smart属性数据的基础上使用统计学方法或边缘样本密度度量方法能大幅提高盘故障预测的故障检测率,同时还能降低误报率。但这些盘故障预测方法仅能达到70%左右的故障检测率。机器学习方法能够学习到盘设备属性数据中潜在的特征,进一步提高盘故障预测的检测率。

4、但是,传统的机器学习方法需要大量的训练数据,而盘设备数据存在非常严重的样本不均衡现象,即故障样本的数量远远小于正常样本的数量。随着智能手机与电脑等移动端设备大规模生产,则增加了盘设备数据的采集难度,具体来说,移动端设备中盘设备数据的采集时间与用户的使用习惯有关,例如,如果当日需要采集盘设备信息,但是用户没有开机,会导致当日盘设备信息没有采集,也可能会导致部分盘设备信息的缺失。而且,对于盘设备的故障标识是根据故障工单而定,没有统一的定义标准,可能会产生误报的情况。这些问题导致了训练数据的缺乏。此外,在大规模的存储系统中,为了增加存储容量或替换故障盘设备会经常添加新的盘设备,导致随着时间的推移存储系统逐渐由来自不同供应商或同一供应商但不同型号的少量新盘设备组成,盘设备的异质性逐渐严重,采用统一的预测模型也无法满足盘故障预测的需求。


技术实现思路

1、针对现有技术的缺陷和改进需求,本专利技术提供了一种盘设备全生命周期故障预测方法,其目的在于,基于盘设备在生命周期不同阶段所产生的属性数据的特性,训练相应的预测模型,在训练数据缺乏尤其是故障样本缺乏的情况下,有效提高盘设备故障预测的预测精度。

2、为实现上述目的,按照本专利技术的一个方面,提供了一种盘设备全生命周期故障预测模型建立方法,包括如下步骤:

3、(s1)从目标类型的故障盘设备及正常盘设备的历史数据中收集与盘故障相关的多维特征数据,将其中故障盘设备在故障窗口内的多维特征数据标注为故障样本,其余数据均标注为正常样本,得到样本集;

4、(s2)利用样本集训练机器学习模型,得到第一预测模型;机器学习模型以盘设备的多维特征数据为输入,预测盘设备的故障指数,若故障指数高于预设阈值thpre,则判定盘设备故障,否则,判定盘设备正常;

5、(s3)若正常盘设备数量小于预设阈值thnor,且故障盘设备数量小于预设阈值thfau,则转入(s4);否则,转入(s7);

6、(s4)若故障盘设备和正常盘设备的生命周期均小于m天,则转入(s5);否则,转入(s6);m均为预设正整数;

7、(s5)获取与样本集格式相同的辅助数据集,并将样本集中的部分样本与辅助数据集作为训练集,将样本集中的剩余样本作为测试集,对用于预测盘设备为故障盘设备还是正常盘设备的二分类模型进行训练和测试,得到第二预测模型,之后转入(s7);

8、(s6)利用样本集中的正常样本训练单样本分类模型,得到第三预测模型,转入(s7);

9、(s7)模型建立结束;

10、其中,目标类型的盘设备为相同厂商相同型号的盘设备。

11、进一步地,机器学习模型为集成学习模型,其在预测盘设备的故障指数的同时,输出各维特征的重要性;

12、并且,步骤(s2)中,利用样本集训练机器学习模型,得到第一预测模型,包括:

13、(s21)以样本集中样本完整的多维特征数据为机器学习模型的输入,对机器学习模型进行训练,得到各维特征的重要性后,从样本集中剔除重要性低于重要性平均值的特征项;

14、(s22)将样本集划分为训练样本集和验证样本集;验证样本集中样本的采集时间均晚于训练样本集中样本的采集时间;

15、(s23)从机器学习模型的超参数空间中确定与训练样本集对应的最优超参数组合,并按照最优超参数组合设置机器学习模型;

16、(s24)利用训练样本集对(s23)设置后的机器学习模型进行训练;

17、(s25)使用验证样本集对步骤(s24)训练后的机器学习模型进行验证,若误报率高于预设阈值thfar,则转入(s23);否则,将步骤(s24)训练后的机器学习模型作为第一预测模型。

18、进一步地,步骤(s5)中,对二分类模型进行训练时,训练集中,来自于辅助数据集的样本被初始化了相同的权重,并且来自于样本集的样本被初始化了相同的权重;

19、对于训练集中来自于辅助数据集的样本,若其在训练过程中被预测错误,则降低其权重;

20、对于训练集中来自于样本集的样本,若其在训练过程中被预测错误,则增加其权重。

21、进一步地,步骤(s5)中,对于训练集中的任意第i个样本xi,其权重被初始化为:

22、

23、其中,n表示训练集中来自于样本集的样本数量,m表示辅助数据集中的样本总数;表示第i个样本xi的初始权重本文档来自技高网...

【技术保护点】

1.一种盘设备全生命周期故障预测模型建立方法,其特征在于,包括如下步骤:

2.如权利要求1所述的盘设备全生命周期故障预测模型建立方法,其特征在于,所述机器学习模型为集成学习模型,其在预测盘设备的故障指数的同时,输出各维特征的重要性;

3.如权利要求1或2所述的盘设备全生命周期故障预测模型建立方法,其特征在于,所述步骤(S5)中,对二分类模型进行训练时,所述训练集中,来自于辅助数据集的样本被初始化了相同的权重,并且来自于所述样本集的样本被初始化了相同的权重;

4.如权利要求3所述的盘设备全生命周期故障预测模型建立方法,其特征在于,所述步骤(S5)中,对于所述训练集中的任意第i个样本xi,其权重被初始化为:

5.如权利要求4所述的盘设备全生命周期故障预测模型建立方法,其特征在于,

6.如权利要求3所述的盘设备全生命周期故障预测模型建立方法,其特征在于,所述辅助数据集与所述样本集的KLD值小于预设阈值Thsim。

7.如权利要求1或2所述的盘设备全生命周期故障预测模型建立方法,其特征在于,所述单样本分类模型包括依次连接的第一编码器GE、解码器GD以及第二编码器E;

8.如权利要求1所述的盘设备全生命周期故障预测模型建立方法,其特征在于,所述步骤(S1)中,将故障盘设备最后W天的多维特征数据标注为故障样本,其余数据均标注为正常样本之前,还包括:对数据进行预处理;所述预处理包括以下操作中的至少之一:

9.一种基于权利要求1~8任一项所述的盘设备全生命周期故障预测模型建立方法的盘设备全生命周期故障预测方法,其特征在于,包括:

10.一种计算机可读存储介质,其特征在于,包括存储的计算机程序;所述计算机程序被处理器执行时,控制所述计算机可读存储介质所在设备执行权利要求1~8任一项所述的盘设备全生命周期故障预测模型建立方法,或者,权利要求9所述的盘设备全生命周期故障预测方法。

...

【技术特征摘要】

1.一种盘设备全生命周期故障预测模型建立方法,其特征在于,包括如下步骤:

2.如权利要求1所述的盘设备全生命周期故障预测模型建立方法,其特征在于,所述机器学习模型为集成学习模型,其在预测盘设备的故障指数的同时,输出各维特征的重要性;

3.如权利要求1或2所述的盘设备全生命周期故障预测模型建立方法,其特征在于,所述步骤(s5)中,对二分类模型进行训练时,所述训练集中,来自于辅助数据集的样本被初始化了相同的权重,并且来自于所述样本集的样本被初始化了相同的权重;

4.如权利要求3所述的盘设备全生命周期故障预测模型建立方法,其特征在于,所述步骤(s5)中,对于所述训练集中的任意第i个样本xi,其权重被初始化为:

5.如权利要求4所述的盘设备全生命周期故障预测模型建立方法,其特征在于,

6.如权利要求3所述的盘设备全生命周期故障预测模型建立方法,其特征在于,所述辅助数据集与所述样本集的...

【专利技术属性】
技术研发人员:谭支鹏王宣植冯丹谭时锴张鑫晏王锦隆张婧
申请(专利权)人:华中科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1