用于硬盘数据故障预测的样本获取方法、装置、设备制造方法及图纸

技术编号：41206730 阅读：25 留言：0更新日期：2024-05-07 22:33

本公开涉及机器学习领域，具体涉及用于硬盘数据故障预测的样本获取方法、装置、设备，方法包括：获取硬盘数据的训练样本以及训练样本对应的样本标签；根据训练样本，构建出生成虚拟样本的第一故障模型；根据样本标签，构建出生成虚拟样本对应的虚拟标签的第二故障模型；根据训练样本、样本标签、第一故障模型以及第二故障模型，确定所述虚拟样本和所述虚拟标签；根据虚拟样本和虚拟标签，得到用于硬盘数据故障预测的目标训练样本和目标训练样本对应的目标样本标签。本公开利用机器学习和混合学习相结合的方式，能够处理好硬盘故障领域中常见的数据不平衡问题，从而提升后续模型对少数类样本的关注程度，从而提升模型的整体预测识别能力。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及机器学习领域，具体涉及用于硬盘数据故障预测的样本获取方法、装置、设备。

技术介绍

1、硬盘故障会严重危害数据安全和系统运行效率。在现有的硬盘故障诊断方法中，硬盘自检程序（也称为自监测分析报告，即s.m.a.r.t.）是检测硬盘健康状况的最常用方法之一。

2、随着大数据时代的到来，云计算、大数据分析等应用地发展助长了存储行业的繁荣发展。相应地，数据中心需要处理的硬盘数据信息也呈现井喷的趋势。考虑到s.m.a.r.t.数据集中包含多种评价指标，这些指标的分析大多依靠研究人员的经验，或者人为设定的阈值。分析过程较为繁琐和复杂，而且无法有效解决多种复杂的故障问题。在此背景下，利用机器学习技术进行硬盘故障检测已成为一种重要的研究思路。但是目前已有的基于机器学习的故障预测方法通常假设不同类别的数据比例分布一致。但对硬盘故障检测应用而言，硬盘故障率通常很低，而且硬盘通常需要长期运行才会出现故障。因此，硬盘数据中的“健康”和“故障”标签的数据分布极不平衡，现有的卷积神经网络、长短记忆网络等方法，难以在数据分布极不平衡的情况下学习到...

【技术保护点】

1.一种用于硬盘数据故障预测的样本获取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述训练样本，构建出生成虚拟样本的第一故障模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述样本标签，构建出生成所述虚拟样本对应的虚拟标签的第二故障模型，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述样本混合因子、所述预设数量的训练样本，确定标签混合因子，包括：

5.根据权利要求4所述的方法，其特征在于，在所述训练样本的数量为两个的情况下，所述根据所述样本量、预设决策边界以及所述样本混合...

【技术特征摘要】

1.一种用于硬盘数据故障预测的样本获取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述训练样本，构建出生成虚拟样本的第一故障模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述样本标签，构建出生成所述虚拟样本对应的虚拟标签的第二故障模型，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述样本混合因子、所述预设数量的训练样本，确定标签混合因子，包括：

5.根据权利要求4所述的方法，其特征在于，在所述训练样本的数量为两个的情况下，所述根据所述样本量、预设决策边界以及所述样本混合因子，确定所述标签混合因子，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述比较结果和所述样本混合因子，确定所述标签混合因子，包括：

7.根据权利要求5所述的方法，其特征在于，所述根据所述比较结果和所述样本混合因子，确定所述标签混合因子，包括：

8.根据权利要求5所述的方法，其特征在于，所述根据所述比较结果和所述样本混合因子，确定所述标签混合因子，包括：

9.根据权利要求1所述的方法，其特征在于，所述根据所述虚拟样本和所述虚拟标签，得到用于硬盘数据故障预测的目标训练样本和所述目标训练样本对应的目标样本标签，包括：

10.根据权利要求3所述的...

【专利技术属性】
技术研发人员：谭咏文，刘洪栋，孙业宽，李旭东，
申请(专利权)人：济南浪潮数据技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人