一种云数据中心服务器健康度评估方法技术

技术编号:34451433 阅读:25 留言:0更新日期:2022-08-06 16:52
本发明专利技术设计了一种云数据中心服务器健康度评估方法。首先,收集构成服务器状态的各项属性和实时数据,对其进行特征工程,得到服务器历史特征数据;其次,设计了一种服务器健康度的评估方式,该方式通过计算待评估样本到正常样本以及故障样本的各类中心的距离,得出待评估样本的健康程度;最终,将计算的健康度与设定的阈值相比较,若健康度高于阈值,则判断服务器在未来一段时间为正常状态,否则判断将会发生故障。与传统的基于单项属性阈值的健康状态评估方法相比,本方法能够综合考虑到各项属性对服务器健康状态的影响。属性对服务器健康状态的影响。属性对服务器健康状态的影响。

【技术实现步骤摘要】
一种云数据中心服务器健康度评估方法


[0001]本专利技术涉及云数据中心评估领域,具体涉及一种云数据中心服务器健康度评估方法。

技术介绍

[0002]随着人类全面进入大数据时代,5G、物联网、云计算等一批新兴技术得到迅猛发展。新兴技术的发展和成熟给云数据中心的建设提供了支持和便利,同时也带来了崭新的挑战。庞大的数据量对数据中心的可靠性、稳定性提出了极高的要求,在大型数据中心中,即使有着冗余服务器作为应急处理方案,服务器发生故障也可能带来不小的损失。一方面,正在工作的业务无法在故障服务器上继续运行,会给用户和服务方带来困扰;另一方面,故障可能造成数据丢失,而数据丢失带来的后果可能是灾难性的,难以甚至无法恢复,从而导致巨大的经济损失。因此,能够准确地对服务器健康状态进行实时监控和评估,可以帮助工作人员进行主动运维,提前采取相应措施,避免故障造成的各种危害和损失。
[0003]目前大多数对服务器的健康状态评估方法都是基于阈值的方法,即将监控的数据与预设的阈值进行实时对比,根据对比结果做出相应措施。也有基于相似度计算的方法,即计算每台服务器的向量表示,并通过余弦相似度或欧式距离等方法计算待评估服务器与每台故障服务器的相似度,最后对所有计算结果取均值作为该服务器的健康度。基于阈值的方法依赖于对服务器众多属性数据的阈值设定和实时监控,局限性大,泛用性不强。而传统基于相似度计算的方法没有考虑到故障原因多种多样,计算与所有故障服务器的平均相似度会影响判断服务器健康状态的准确程度。
[0004]为了解现有技术的发展状况,对已有的专利和文献进行了检索、比较和分析,筛选出如下与本专利技术相关度比较高的技术信息:
[0005]专利方案1:CN111008104A一种服务器主机健康度计算、告警方法及系统,提供了一种服务器主机健康度计算、告警方法及系统,该方法获取服务器主机CPU、内存及存储的资源使用率,并将资源使用率划分为三个区间。通过CPU、内存及存储的资源使用率和预设的健康度计算公式计算各自的健康度,其计算公式根据不同的使用率区间进行微调。最后,使用预设的权重计算CPU、内存及存储健康度的总和,得到服务器健康度,将服务器健康度与所设阈值比较,决定是否发出告警及告警等级。缺陷:该方案旨在通过服务器内主要系统的资源使用率实时计算服务器的健康度,并及时进行告警。该方案并没有收集服务器各部件中与服务器故障有关的各参数的变化情况和实时数据,仅关注当下的资源使用率,忽略了硬件损耗等原因对服务器性能和负载上限造成的不利影响。并且,其健康度计算公式中的参数和各部件的权重的设定需要在不同的服务器上做出不同的调整,并不能广泛适用于各种服务器型号的健康度评估系统中。
[0006]专利方案2:CN112925668A服务器健康评价方法、装置、设备以及存储介质,公开了一种服务器健康评价方法,该方法首先收集并合并服务器系统日志得到合并日志,利用词向量模型对其进行处理,得到服务器的向量表示。用每台服务器的向量表示和故障服务器
向量集合中每台故障服务器的向量表示进行相似度计算,从而得到该服务器与每台故障服务器的相似度值,再将所有相似度值相加并计算均值,将该均值作为该台服务器的健康度。最后,将服务器的健康度与预先设定的健康度阈值进行比较,基于比较结果确定对服务器执行的操作。该方法通过对服务器进行健康评价,提高了对服务器健康的整体把控能力,使运维人员能够有针对性地对服务器进行前置处理,间接提高了服务的稳定性。缺陷:该方案通过词向量模型获取到待评估服务器系统日志的向量表示,计算该服务器到故障服务器集合中每台服务器的余弦相似度或欧式距离得到两台服务器之间的相似度值,最后将所有相似度值相加取均值,作为该服务器的健康度。然而,由于服务器发生故障的原因多种多样,待评估服务器可能与某类故障服务器相似的同时,与其他故障服务器完全不相似。由于这种情况的存在,简单地对相似度值和取均值会影响最终健康度评估的准确程度。

技术实现思路

[0007]本专利技术针对大型数据中心中服务器健康状态的实时评估问题,聚焦于构成服务器状态的属性众多、造成服务器故障的原因多样两大问题,提出了一种服务器健康度的评估方法。
[0008]本专利技术采用的技术方案为:
[0009]一种云数据中心服务器健康度评估方法,包括以下步骤:
[0010]S1、采集服务器设定时间的各项指标数据,并进行特征工程,过滤掉在正常服务器和故障服务器中没有明显变化的属性,得到服务器实时数据的最终特征集合;
[0011]S2、对服务器实时数据的最终特征集合进行降维可视化,分析数据样本的分布情况,得到故障样本的样本簇数量;并对特征向量进行聚类,计算得到正常服务器和故障服务器的类中心点,计算待评估样本点与各类中心点之间的距离,综合计算的距离,将计算结果映射到[0,1]范围内,得到待评估服务器的健康度;
[0012]S3、将待评估服务器的健康度与设定的阈值比较,如果健康度大于阈值,则判断待评估服务器为正常,否则认为待评估服务器将要发生故障,进行故障告警。
[0013]进一步的,步骤S1具体包括:
[0014]S11、计算服务器历史各项指标数据的特征集合中每一维特征的方差,将方差为0或与0相差设定阈值的特征进行过滤;其中,各项指标数据,包括处理器负载数据、内存数据和硬盘底层数据读取错误率;
[0015]S12、在经过初步过滤的特征集合中,对于每一维特征,选取正常服务器样本和故障服务器样本中对应的特征数据,运行威克森秩和检验,得到对应特征的p

value值;
[0016]S13、将计算得到对应特征的p

value值与预设的显著性水平进行比较;若p

value值大于显著性水平,则认为对应特征在正常和故障样本中不存在显著性差异,进行过滤;否则保留下来,构成最终特征集合。
[0017]进一步的,步骤S2具体包括:
[0018]S21、对特征集合中每一维度的特征进行标准化处理;
[0019]S22、使用t

SNE对标准化处理后高维的服务器特征向量进行降维可视化,分析数据样本的分布情况,得到故障服务器的样本簇的数量;
[0020]S23、使用K

Means算法对分别对正常服务器样本与故障服务器样本进行聚类,计
算得到各个类的类中心。
[0021]进一步的,步骤S23具体包括:
[0022]S231、随机选择k个数据样本作为每个类的初始类中心,记为c1,c2,

,ck;其中,k为聚类的数量,根据故障服务器的样本簇的数量计算得到;
[0023]S232、对于所有的数据样本,计算到当前每个类中心点的距离,并划分给距离最近的一个类;
[0024]S233、根据每个类中的所有样本计算新的类中心点,新类中心点的计算公式如下:
[0025][0026]其中c
i
表示第i个类的新中心点,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种云数据中心服务器健康度评估方法,其特征在于,包括以下步骤:S1、采集服务器设定时间的各项指标数据,并进行特征工程,过滤掉在正常服务器和故障服务器中没有明显变化的属性,得到服务器实时数据的最终特征集合;S2、对服务器实时数据的最终特征集合进行降维可视化,分析数据样本的分布情况,得到故障样本的样本簇数量;并对特征向量进行聚类,计算得到正常服务器和故障服务器的类中心点,计算待评估样本点与各类中心点之间的距离,综合计算的距离,将计算结果映射到[0,1]范围内,得到待评估服务器的健康度;S3、将待评估服务器的健康度与设定的阈值比较,如果健康度大于阈值,则判断待评估服务器为正常,否则认为待评估服务器将要发生故障,进行故障告警。2.根据权利要求1所述的云数据中心服务器健康度评估方法,其特征在于,步骤S1具体包括:S11、计算服务器历史各项指标数据的特征集合中每一维特征的方差,将方差为0或与0相差设定阈值的特征进行过滤;其中,各项指标数据,包括处理器负载数据、内存数据和硬盘底层数据读取错误率;S12、在经过初步过滤的特征集合中,对于每一维特征,选取正常服务器样本和故障服务器样本中对应的特征数据,运行威克森秩和检验,得到对应特征的p

value值;S13、将计算得到对应特征的p

value值与预设的显著性水平进行比较;若p

value值大于显著性水平,则认为对应特征在正常和故障样本中不存在显著性差异,进行过滤;否则保留下来,构成最终特征集合。3.根据权利要求1所述的云数据中心服务器健康度评估方法,其特征在于,步骤S2具体包括:S21、对特征集合中每一维度的特征进行标准化处理;S22、使用t

SNE对标准化处理后高维的服务器...

【专利技术属性】
技术研发人员:霍永华杨国瑞商英俊罗有平张杰冯金顺杨杨王智立胡皓
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1