【技术实现步骤摘要】
基于生成对抗网络的不平衡磁盘数据处理方法及系统
[0001]本专利技术属于磁盘故障预测
,具体涉及一种基于生成对抗网络的不平衡磁盘数据处理方法及系统。
技术介绍
[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]在大规模数据中心中,由于磁盘硬件的数量很大,其损坏率往往是所有硬件之首。根据微软统计关于其数据中心的数据显示,在各数据中心中硬盘故障占了所有硬件损坏的78%。关于磁盘故障,影响磁盘可靠性的因素非常多,而且磁盘扇区级别的故障也非常频繁,如磁盘温度,湿度,负载高低,运行时间,潜在扇区错误故障都将可能导致磁盘异常,造成记录的用户数据丢失。
[0004]近些年,人们提出了利用硬盘的SMART技术来主动预测硬盘故障。具体为磁盘的“自我监测、分析和报告技术”,它将监控硬盘的重要的健康属性指标并记录,同时为每个指标设定健康阈值;如果有指标低于阈值则认为硬盘可能发生故障并发出预警信息给操作系统或用户,系统收到预警信息后可提前迁移或备份该硬盘的数据。目前,几乎所 ...
【技术保护点】
【技术特征摘要】
1.基于生成对抗网络的不平衡磁盘数据处理方法,其特征在于,包括:获取磁盘数据并进行预处理;基于预处理后的磁盘数据,利用预先训练好的残差条件表格生成对抗网络模型进行数据合成,得到合成的磁盘数据;其中,所述残差条件表格生成对抗网络模型的训练过程,包括:基于预处理后的磁盘样本数据集进行划分,划分成训练集和测试集;对训练集中的离散列与连续列进行建模分析,得到拟合后的数据训练集;基于拟合后的数据训练集分别送入辨别器与分类器进行训练,学习数据分布,更新自身权重;利用训练后的辨别器与分类器返回梯度信息,更新生成器;基于拟合后的数据训练集,利用更新后的生成器学习拟合后的数据的数据分布生成伪数据;将生成的伪数据分别送入辨别器与分类器进行数据质量判别;基于数据质量判别结果,确定更新后的生成器的数据生成能力;迭代上述辨别器、分类器以及生成器的训练过程,直到迭代到设置的训练次数,得到训练好的残差条件表格生成对抗网络模型。2.如权利要求1所述的基于生成对抗网络的不平衡磁盘数据处理方法,其特征在于,所述获取磁盘数据并进行预处理,包括:获取磁盘数据;利用特征归一化把获取的磁盘数据全部映射到区间[
‑
1,1]之间;去除量纲,得到预处理后的磁盘数据。3.如权利要求1所述的基于生成对抗网络的不平衡磁盘数据处理方法,其特征在于,所述训练集中的离散列与连续列进行建模分析,得到拟合后的数据训练集,具体为:将训练集中的离散列表征为独热向量;将训练集中的连续列进行归一化拟合,得到一个向量;将独热向量和向量组合起来,得到拟合后的数据训练集。4.如权利要求3所述的基于生成对抗网络的不平衡磁盘数据处理方法,其特征在于,所述训练集中的连续列进行归一化拟合,得到一个向量,具体为:对于每个连续列,使用变分高斯混合模型估计高斯分布模式数量并拟合高斯混合;计算每个连续列中的每个值对应的高斯分布模式的概率;从给定的概率密度中采样一个高斯分布模式,并使用该采样高斯分布模式对连续值值进行归一化,得到一个向量,所述向量为一个指定高斯分布模式的独热向量和一个指定高斯分布模式内值的标量组合而成。5.如权利要求1所述的基于生成对抗网络的不平衡磁盘数据处理方法,其特征在于,所述辨别器用于区分真实数据和伪数据;所述分类器用于区分正样本,负样本以及伪数据类别;所述辨别器采用残差神经网...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。