一种硬盘健康度评估方法及装置制造方法及图纸

技术编号:24852801 阅读:32 留言:0更新日期:2020-07-10 19:06
本发明专利技术提供了一种硬盘健康度评估方法及装置,该方法包括:初始化配置有硬盘的服务器集群,确定服务器集群的硬盘样本数据;获取采样间隔内硬盘样本数据的检测属性SMART信息;对SMART信息进行聚类,确定相应的聚类参数;根据聚类参数,评估服务器集群的硬盘健康度。本发明专利技术实施例对服务器集群进行初始化确定可作为样本的硬盘样本数据,再对确定出的硬盘样本数据的SMART信息进行聚类,得到聚类参数,根据聚类参数来评估服务器集群中硬盘的硬盘健康度,可以准确评估服务器集群中硬盘的整体健康度,预测可能出现故障的硬盘。

【技术实现步骤摘要】
一种硬盘健康度评估方法及装置
本专利技术涉及服务器
,尤其涉及一种硬盘健康度评估方法及装置。
技术介绍
随着云计算、大数据产业的蓬勃发展,信息技术(InformationTechnology,IT)、互联网、金融、政府等行业对服务器硬件资源的需求日益增多。由于数据的大规模增长,海量存储系统变得越来越大、越来越复杂,构建高可靠性、高可用性的存储系统变成了企业运营的巨大挑战。保证数据的安全与完整性,是企业运营和生存的重要保证。因此,基于数据中心服务器的硬盘健康度与故障的预测,成为很多高效科研工作者、运维人员等共同关注的话题。而现有的国际通用标准中,基于硬盘的常用可监控指标或者检测属性(SMART)信息,成为实现预测的重要数据基础。目前,预测硬盘健康度和故障的方法有:通过将硬盘SMART日志数据标记为正常样本和故障硬盘样本,并根据样本的属性值将样本划分为可能的多个不相干的子集,根据机器学习算法构建出预测模型。通过对当前硬盘的运行数据为输入值,预测硬盘故障的准确率以及误报率。但是,由于数据中心服务器供货厂商类型不统一、硬盘型号以及品牌不一致、服务器上架投产批次不同等,增加了硬盘健康度与故障预测的困难。以数据中心2000台服务器计算,由1-2个供应商供货,服务器分为计算分析型、存储型两大类,对应硬盘至少三种:SSD系统盘、常规容量高速数据盘、大容量低俗存储盘,服务器上架投产的时间分2-3个阶段,每个阶段6个月间隔。假设同一批次硬盘同一起时时间运行的数量较好情况下大约2000-3000块硬盘,平均年故障的硬盘在10-20块,以此作为负样本构建预测模型,正负样本比例100:1以上,存在训练负样本数量不足现象,而负样本的故障原因差异性进一步弱化训练准确性。
技术实现思路
本专利技术提供一种硬盘健康度评估方法及装置,解决了现有技术中硬盘健康福和故障预测方法中,预测准确性差的问题。本专利技术的实施例提供了一种硬盘健康度评估方法,包括:初始化配置有硬盘的服务器集群,确定服务器集群的硬盘样本数据;获取采样间隔内硬盘样本数据的检测属性SMART信息;对SMART信息进行聚类,确定相应的聚类参数;根据聚类参数,评估服务器集群的硬盘健康度。本专利技术的实施例还提供了一种硬盘健康度评估装置,包括:初始化模块,用于初始化配置有硬盘的服务器集群,确定服务器集群的硬盘样本数据;第一获取模块,用于获取采样间隔内硬盘样本数据的检测属性SMART信息;聚类模块,用于对SMART信息进行聚类,确定相应的聚类参数;评估模块,用于根据聚类参数,评估服务器集群的硬盘健康度。本专利技术的实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述的硬盘健康度评估方法的步骤。本专利技术的上述技术方案的有益效果是:对服务器集群进行初始化确定可作为样本的硬盘样本数据,再对确定出的硬盘样本数据的SMART信息进行聚类,得到聚类参数,根据聚类参数来评估服务器集群中硬盘的硬盘健康度,这样以正常硬盘为样本,样本数量大,可以准确评估服务器集群中硬盘的整体健康度,预测可能出现故障的硬盘。进一步地,本专利技术实施例还可利用确定出的硬盘样本数据和物理环境监控数据构建PCA算法模型,基于该PCA算法模型可确定影响硬盘健康度的原因,这样可基于影响原因优化硬盘的部署策略。附图说明图1表示本专利技术实施例硬盘健康度评估方法的流程示意图;图2表示本专利技术实施例硬盘健康度评估装置的模块结构示意图。具体实施方式为使本专利技术要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。在下面的描述中,提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本专利技术的实施例。因此,本领域技术人员应该清楚,可以对这里描述的实施例进行各种改变和修改而不脱离本专利技术的范围和精神。另外,为了清楚和简洁,省略了对已知功能和构造的描述。应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本专利技术的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。在本专利技术的各种实施例中,应理解,下述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本专利技术实施例的实施过程构成任何限定。另外,本文中术语“系统”和“网络”在本文中常可互换使用。在本申请所提供的实施例中,应理解,“与A相应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其它信息确定B。如图1所示,本专利技术的实施例提供了一种硬盘健康度评估方法,具体包括以下步骤:步骤11:初始化配置有硬盘的服务器集群,确定服务器集群的硬盘样本数据。其中,本专利技术实施例所说的初始化指的是硬盘投入使用时的初始化过程,尤其指新的硬盘投入使用时的初始化过程。通常情况下新的硬盘在出厂时已经过测试,具备良好的性能。服务器集群包括至少一个服务器,一个服务器上配置有至少一个硬盘。硬盘样本数据指的是符合预设要求的硬盘样本,例如硬盘健康度好的硬盘样本。步骤12:获取采样间隔内硬盘样本数据的检测属性SMART信息。其中,SMART信息又可称为可监控指标,是实现预测和评估的重要数据基础。采样间隔可以是周期设置的,也可以是持续设置的。例如每隔一个小时、一天、一周或一个月获取一次硬盘样本数据的SMART信息。又例如可持续获取硬盘样本数据的SMART信息。该步骤中,根据当前在用的服务器,建立采集硬盘样本数据SMART信息的全属性的映射关系。其中,SMART信息包括但不限于:性能属性、服务器类型、服务节点(ServingNode,SN)、时间戳、硬盘所属raid、硬盘安装槽位、硬盘接口协议以及硬盘类型中的至少一项。建立SMART信息的全属性映射关系可以参照以下方式实现:根据服务器类型、SN、时间戳、硬盘所属raid、槽位、硬盘接口协议以及硬盘类型,从监控层面能够自动化采集硬盘运行的文本数据,如ZTE_219119783989_1537171201_c0_3_SATA_HDD。并将采集到的文本数据推送到日志平台中,通过文本数据的命名名称能够识别硬盘的所属以实现快速定位和建立资产库。其中,SMART属性信息是是一种自动的硬盘状态检测与预警系统和规范,作为行业标准,S.M.A.R.T规定了硬盘制造厂商应遵循的标准,允许用户自由开启和关闭S.M.A.R.T功能,在用户使用过程中,能提供各项有效信息,确定设备的工作状态,并能发出相应的修正指令或警告。在标准中虽然定义了ID编号从01到254众多的属性信息,目前,各硬盘制造商的绝大部分SMART信息ID代码所代表的参数含义是一致的,但不同的硬盘厂商也可以在该基本文档来自技高网
...

【技术保护点】
1.一种硬盘健康度评估方法,其特征在于,包括:/n初始化配置有硬盘的服务器集群,确定所述服务器集群的硬盘样本数据;/n获取采样间隔内所述硬盘样本数据的检测属性SMART信息;/n对所述SMART信息进行聚类,确定相应的聚类参数;/n根据所述聚类参数,评估所述服务器集群的硬盘健康度。/n

【技术特征摘要】
1.一种硬盘健康度评估方法,其特征在于,包括:
初始化配置有硬盘的服务器集群,确定所述服务器集群的硬盘样本数据;
获取采样间隔内所述硬盘样本数据的检测属性SMART信息;
对所述SMART信息进行聚类,确定相应的聚类参数;
根据所述聚类参数,评估所述服务器集群的硬盘健康度。


2.根据权利要求1所述的硬盘健康度评估方法,其特征在于,初始化配置有硬盘的服务器集群,确定所述服务器集群的硬盘样本数据的步骤,包括:
获取所述服务器集群中硬盘的初始SMART信息;
对所述初始SMART信息进行正态分布检测,确定在预设标准差内预设百分比置信区间的硬盘样本数据。


3.根据权利要求1所述的硬盘健康度评估方法,其特征在于,对所述SMART信息进行聚类,确定相应的聚类参数的步骤,包括:
对所述SMART信息中的关键属性信息进行聚类,得到所述关键属性信息的聚类参数;其中,所述关键属性信息为所述SMART信息所包含的性能属性的中的至少一项。


4.根据权利要求3所述的硬盘健康度评估方法,其特征在于,所述SMART信息还包括以下属性信息中的至少一项:服务器类型、服务节点SN、时间戳、硬盘所属raid、硬盘安装槽位、硬盘接口协议以及硬盘类型。


5.根据权利要求1所述的硬盘健康度评估方法,其特征在于,所述聚类参数包括:聚类类别的数量、类别中心点和距离类别中心点满足预设要求的奇异样本点中的至少一项。


6.根据权利要求5所述的硬盘健康度评估方法,其特征在于,根据所述聚类参数,评估所述服务器集群的硬盘健康度的步骤,包括以下中的至少一项:
根据所述聚类参数中聚类列表的数量变化情况,评估所述服务器集群中硬盘的健康度分化情况;
根据不同聚类类别的类别中心点的变化情况,评估所述服务器集群中硬盘的健康度降低率;
根据所述奇异样本点,预测所述服务器集群中的故障硬盘。


7.根据权利要求1所述的硬盘健康度评估方法,其特征在于,根据所述聚类参数,评估所述服务器集群的硬盘健康度的步骤之前,还包括:
获取所述采样间隔内与所述硬盘样本数据对应的物理环境监控数据;
其中,所述获取采样间隔内所述硬盘样本数据的检测属性SMART信息的步骤,以及获取所述采样间隔内与所述硬盘样本数据对应的物理环境监控数据的步骤之后,还包括:
根据所述硬盘样本数据的SMART信息以及所述物理环境监控数据,构建PCA算法模型;
利用所述PCA算法模型计算所述SMART信息的主成分得分,确定影响硬盘健康度的原因。


8.根据权利要求7所述的硬盘健康度评估方法,其特征在于,所述物理环境监控数据包括:所述服务器的进风温度、湿度、噪声、板载电压和操作OS层读取硬盘的输入输出IO吞吐总量中的至少一项。


9.一种硬盘健康度评估装...

【专利技术属性】
技术研发人员:马建华马奇凤李青懋
申请(专利权)人:中国移动通信有限公司研究院中国移动通信集团有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1