基于国产平台的磁盘故障预测方法技术

技术编号:29156183 阅读:16 留言:0更新日期:2021-07-06 22:55
基于国产平台的磁盘故障预测方法。提供了一种适用于带有AI卡的国产平台运行环境,提高存储系统可靠性的基于国产平台的磁盘故障预测方法。包括处理器、磁盘和人工智能计算加速卡,按如下步骤进行:1)、磁盘故障预测环境搭建,磁盘故障预测环境包括磁盘故障预测的软件功能模块和磁盘故障预测的开发运行环境;2)、磁盘故障预测流程,包括训练和推理步序,所述训练步序包括:SMART历史数据采集、数据处理、模型训练和模型评估,经过模型评估形成的数据模型形成可在线利用数据和存储至模型库,存储至模型库的数据作为离线利用数据。本发明专利技术使得运行效率提高,减轻了处理器的运行负担。

【技术实现步骤摘要】
基于国产平台的磁盘故障预测方法
本专利技术涉及存储系统
,具体涉及一种基于国产AI计算平台的磁盘故障检测方法。
技术介绍
随着企业IT计算需求的增加,客户管理的数据中心设备规模越来越大,机房或数据中心的设备数量直线上升,从原先的几百上千,直接跃升到几万、近十万。数据中心的设备管理复杂,设备故障率高等问题,让运维管理支出倍增。引入AI让数据中心智能化,提高运维效率,降低了运维成本。同时,由于我国关键领域集中开展国产化技术攻关,人工智能作为当前主流先进技术,也面临核心技术“卡脖子”问题,急需针对国产化硬件设备,开展AI技术研究,推进国产人工智能平台的应用发展。无论是国外平台还是国产平台,存储系统的安全性是保证用户信息数据的安全性、持久性的基础。而硬盘在数据存储中处于核心的地位,硬盘/磁盘的正常运行是确保数据有效性和安全性的基础。为此对于磁盘运行过程中的故障检测成为本领域热点攻关课题。国家知识产权局公开的名称:磁盘故障的预测方法、设备及存储介质,公开号:CN109739739A的专利文献,出于提高对磁盘故障主动性预测的准确率的目的,提供了一种磁盘故障的预测方法,其技术方案包括:根据在线采集获得的磁盘相关的信息文件,判断是否对磁盘故障进行直接预测;在判断所述磁盘相关的信息文件为磁盘基本信息文件和SMART数据信息文件时,判定对磁盘故障进行直接预测,并根据所述磁盘基本信息文件和SMART数据信息文件,构建磁盘故障预测特征,根据所述磁盘故障预测特征,加载当前的磁盘故障预测模型对磁盘故障进行预测;在所述磁盘相关的信息文件为磁盘基本信息文件、SMART数据信息文件和离线磁盘文件时,判定不对磁盘故障进行直接预测,并根据所述磁盘基本信息文件、SMART数据信息文件和离线磁盘文件,构建磁盘故障训练特征和标签,根据所述磁盘故障训练特征和标签,对当前的磁盘故障预测模型进行增量训练。最终实现了磁盘故障预测模型的在线训练和在线预测双重功能,避免了传统离线训练的滞后性,提高了预测模型的动态性和适应性,大幅度提升了网络存储系统运行的稳定性,并降低了其运维成本;并且,在磁盘预测的输入特征构建中使用的是磁盘全程监控数据,而不是只使用了最新时间段的监控数据,极大提高了磁盘预测的可靠性。国家知识产权局公开的名称:一种使用多模型预测的磁盘故障检测方法,公开号:CN108986869A的专利文献,公开一种使用多模型预测的磁盘故障检测方法,通过时序数据处理手段提取磁盘SMART指标的多种特征,建立分类模型以预测磁盘状态;步骤一,数据输入:获取若干磁盘在一段时间内的监测数据构成的数据集;步骤二,SMART筛选:采用突变点检测的方式来选择SMART指标;步骤三,特征工程:SMART指标作为自定义特征提取模块的输入,提取SMART指标的特征,进而抽取出相应的参数配置,将参数配置作为参数传入特征提取模块,用以抽取训练集和测试集的特征集合;步骤四,平衡数据集:采用降维聚类,对占比较多的负样本进行降采样;步骤五,算法选择及建模:在步骤四的基础上训练分类模型,并测试当前磁盘属于正常状态或者需要被替换的故障状态。以上两种磁盘故障检测方法均需利用平台自身处理器来实现。然而,在国产平台环境中,鉴于国产平台处理器性能的制约,采取以上两种方法会极大地增加处理器运行负担。
技术实现思路
本专利技术针对以上问题,提供了一种适用于带有AI卡的国产平台运行环境,提高存储系统可靠性的基于国产平台的磁盘故障预测方法。本专利技术的技术方案是:国产平台包括处理器、磁盘和人工智能计算加速卡,按如下步骤进行:1)、磁盘故障预测环境搭建,磁盘故障预测环境包括磁盘故障预测的软件功能模块和磁盘故障预测的开发运行环境;2)、磁盘故障预测流程,包括训练和推理步序,所述训练步序包括:SMART历史数据采集、数据处理、模型训练和模型评估,经过模型评估形成的数据模型形成可在线利用数据和存储至模型库,存储至模型库的数据作为离线利用数据;可在线利用数据和离线利用数据通过模型转换模块转换为pb或om格式模型文件;所述推理步序包括:SMART实时数据采集、应用程序初始化、预测模型、输出预测概率和判断,应用程序初始化,首先进行数据和应用程序的初始化,然后进行人工智能计算加速卡资源初始化,由人工智能计算加速卡实现对pb或om格式模型文件的在线和/或离线处理。所述磁盘故障预测的软件功能模块构建,包括SMART历史数据模块、数据处理模块、模型训练模块、模型评估模块、模型转换模块、推理模块、推理结果再处理模块以及模型存储模块。所述磁盘故障预测的开发运行环境搭建,包括人工智能计算加速卡驱动和固件的适配、深度学习框架的适配和SMART数据实时采集模块的适配。所述磁盘故障预测的训练为:XS1)、SMART历史数据采集,通过所述SMART历史数据模块,采集预测点D天前的多条历史SMART数据,采集频率定为1-5次/天;XS2)、数据处理,先通过所述数据处理模块对采集的数据进行分类,并生成标记数据集,异常样本标记为1,正常样本标记为0;再进行模型建立,对SMART历史数据进行特征筛选,对于其中重复数据或不完整数据的特征进行删除;再对剩余的特征进行标准化处理;XS3)、模型训练与评估,设定好训练超参后进行模型训练,模型评估结果显示精度已达到预期时,则将训练完成的模型保存至模型库中,否则进行再训练,得经过训练与评估的模型数据;XS4)、模型存储,将经过训练与评估的模型数据进行存储;所述磁盘故障预测的推理为:TS1)、将步骤XS3)或XS4)获得的经过训练与评估的模型数据进行模型格式转换,转换为AI卡可读的pb或om格式模型文件;转换后的pb或om格式模型文件待用;TS2)、获取正在实时运行磁盘的SMART数据,去掉与训练部分删除的特征同样列数的特征值,再按照训练部分的标准化处理方式处理数据;TS3)、应用程序初始化,首先进行数据和应用程序的初始化,然后进行AI卡资源初始化,利于AI卡调用并处理转换后的pb或om格式模型文件;TS4)、预测模型;输出概率,通过已完成初始化的推理应用程序调用离线模型执行推理运算,获取N天以后的磁盘发生故障的概率p;设定阈值θ,将推理得到的概率p与阈值θ进行对比,若p大于等于θ,则认为该磁盘N天后即将发生故障,若p小于θ,则认为该磁盘N天后为正常状态。根据训练部分所述,标记数据集中的异常样本标记为“1”,正常样本标记为“0”,因此设置阈值θ为0.5,则实时推理结果如下公式所示,当p大于等于0.5时,N天后即将发生故障,当p小于0.5时,N天后磁盘处于正常状态。根据ESG公司(EnterpriseStrategyGroup)的统计调查,在关键性数据丢失并造成严重的经济损失前,79%的公司数据恢复时间不超过12小时,63%的公司数据恢复时间小于4个小时,5%的公司甚至没有数本文档来自技高网
...

【技术保护点】
1.基于国产平台的磁盘故障预测方法,国产平台包括处理器、磁盘和人工智能计算加速卡,其特征在于,按如下步骤进行:/n1)、磁盘故障预测环境搭建,磁盘故障预测环境包括磁盘故障预测的软件功能模块和磁盘故障预测的开发运行环境;/n2)、磁盘故障预测流程,包括训练和推理步序,/n所述训练步序包括:SMART历史数据采集、数据处理、模型训练和模型评估,经过模型评估形成的数据模型形成可在线利用数据和存储至模型库,存储至模型库的数据作为离线利用数据;/n可在线利用数据和离线利用数据通过模型转换模块转换为pb或om格式模型文件;/n所述推理步序包括:SMART实时数据采集、应用程序初始化、预测模型、输出预测概率和判断,/n应用程序初始化,首先进行数据和应用程序的初始化,然后进行人工智能计算加速卡资源初始化,/n由人工智能计算加速卡实现对pb或om格式模型文件的在线和/或离线处理。/n

【技术特征摘要】
1.基于国产平台的磁盘故障预测方法,国产平台包括处理器、磁盘和人工智能计算加速卡,其特征在于,按如下步骤进行:
1)、磁盘故障预测环境搭建,磁盘故障预测环境包括磁盘故障预测的软件功能模块和磁盘故障预测的开发运行环境;
2)、磁盘故障预测流程,包括训练和推理步序,
所述训练步序包括:SMART历史数据采集、数据处理、模型训练和模型评估,经过模型评估形成的数据模型形成可在线利用数据和存储至模型库,存储至模型库的数据作为离线利用数据;
可在线利用数据和离线利用数据通过模型转换模块转换为pb或om格式模型文件;
所述推理步序包括:SMART实时数据采集、应用程序初始化、预测模型、输出预测概率和判断,
应用程序初始化,首先进行数据和应用程序的初始化,然后进行人工智能计算加速卡资源初始化,
由人工智能计算加速卡实现对pb或om格式模型文件的在线和/或离线处理。


2.根据权利要求1所述的基于国产平台的磁盘故障预测方法,其特征在于,所述磁盘故障预测的软件功能模块构建,包括SMART历史数据模块、数据处理模块、模型训练模块、模型评估模块、模型转换模块、推理模块、推理结果再处理模块以及模型存储模块。


3.根据权利要求1所述的基于国产平台的磁盘故障预测方法,其特征在于,所述磁盘故障预测的开发运行环境搭建,包括人工智能计算加速卡驱动和固件的适配、深度学习框架的适配和SMART数据实时采集模块的适配。


4.根据权利要求1所述的基于国产平台的磁盘故障预测方法,其特征在于,
所述磁盘故障预测的训练为:
XS1)、SMART历史数据采集,通过所述SMART历史数据模块,采集预测点D天前的多条历史SMART数据,采集频率定为1-5次/天;
XS2)、数据处理,<...

【专利技术属性】
技术研发人员:周思远朱洪斌李悦庄松泉
申请(专利权)人:扬州万方电子技术有限责任公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1