一种服务器健康度评估方法技术

技术编号:15541486 阅读:54 留言:0更新日期:2017-06-05 10:52
本发明专利技术提供了一种服务器健康度评估方法,包括步骤:S1:获取服务器的网元指标;S2:通过网管的指标阈值监控信息获取每一网元指标的告警等级以及每一告警等级的指标阈值,指标阈值包括指标阈值上限或/和指标阈值下限;S3:实时获取每一网元指标性能值;当网元指标性能值未超出指标阈值上限或未低于指标阈值下限时,根据每一告警等级、每一告警等级的指标阈值以及每一网元指标性能值计算每一网元指标的健康度损减分数;S4:计算服务器的健康度。本发明专利技术提供的服务器健康度评估方法,能够更科学,更真实有效的反映服务器的健康度,并且,通过该方法得出的评估结果,能够帮助网管人员快速找出更可能出现告警或者告警严重的服务器。

Method for evaluating server health degree

The invention provides a health assessment method, comprising the steps of: S1 server: network access server index; S2 index: thresholds for each network element index by index threshold monitoring information network alarm and alarm of each grade level, including the upper threshold indicator threshold index or / and index threshold: S3; real time acquisition of each network element performance index value; when the network performance index value does not exceed the threshold of the upper or lower threshold index index is higher than the threshold, according to the index of each alarm level, each alarm level and each network element performance value health loss calculation of each network element index reduction fraction; S4: computing server the health of the. Methods the server health evaluation provided by the invention can be more scientific, more real and effective reflect server health, and, by this method the evaluation results can help network administrators to quickly find out more likely to have serious warning or alarm server.

【技术实现步骤摘要】
一种服务器健康度评估方法
本专利技术涉及计算机领域,尤其涉及一种服务器健康度评估方法。
技术介绍
不同的服务器工作内容大不相同,很多服务器经常连续不停运转,加上负载不均衡等原因,使得服务器故障层出不穷。较早的服务器监控方法非常简单:针对每台服务器分别下达指令以采集相关指标来判断其运行状况。然而,随着服务器规模的急剧扩大,针对单个服务器通过指令判断故障的方法已经无法满足需求。为了能有效监控大量服务器,市场上出现了各种服务器性能监控软件。这些软件能够对各个指标进行有效监控,如cpu,内存,磁盘,网络流量等。通过了解各个监控指标的性能以及状态信息,可以快速了解服务器各个部分的运行情况。如果事先为各个指标设立监控指标阈值,当性能值超过指标阈值即可触发告警,并及时发送告警信息通知网管人员维修。这也是目前服务器监控中最普遍的做法。然而,对服务器整体性能做出评估的软件却少之甚少。主要原因在于服务器各有分工,不同的工作任务使得各个指标对不同服务器的重要性也各不相同。对一些服务器而言cpu是一个重要指标,但是对其他服务器而言cpu可能不及内存更重要,因此,在对服务器做整体评估时,不能同一地对待各个指标对服务器总的影响力。这也是很难对整个服务器性能评估的主要原因之一。尽管如此,对服务器整体的性能评估依然很重要,因为只有这样我们才能知道这台服务器是否健康。例如,一些服务器虽未触发告警,但可能各项指标均接近指标阈值,如果不能及时检测出来,很有可能出现服务器运行不稳定,甚至出现系统崩溃的情况。因此,及时了解服务器各项指标的运行情况和服务器整体健康状况是非常重要的。目前的服务器健康度评估方法中,对各个组件的健康度评估比较武断,服务器健康度量化结果不够细分,且健康度分段过程中指标阈值设定同一化,难以将不同业务下的指标进行有效区分,例如:很多文献直接按照一特定指标阈值将其分为健康、不健康、亚健康。一方面,统一地将组件分为健康、不健康、亚健康太过笼统,很难进一步将评估结果细分。另一方面,这里面的指标阈值设定对少量服务器而言还可操作,但是,面对大量服务器,如何设定合适的指标阈值就是一个难题了。相当多的做法是为各个指标,如cpu占用率,按照经验设定指标阈值,超出90%为不健康,超出80%亚健康,低于80%为健康。这么做虽然操作简单,但是,不同的服务器业务不同,对指标的要求也各不相同,设定同一的指标阈值显然会使结果出现较大误差。当然,有的文献结合告警事件来确定网元指标在触发告警后产生的健康度下降程度,但是也只是将超出指标阈值而触发告警的情况考虑进去,却没有考虑未触发告警的情况下网元指标的健康度问题。即,服务器健康度衡量中普遍认为未触发告警时的服务器是健康的,从而将未触发告警的情况忽略掉。事实上,未触发告警时的健康度问题更为重要。这是因为,大多服务器并未触发告警,如果均不考虑的话,很难将其中接近告警范围却并未触发告警的服务器识别出来。大多数文献在利用网元指标(或组件)加权求取系统的整体健康度时,要么采用专家经验定权,要么利用图的广度优先遍历算法定权,但是,这样得出的健康度结果很难直接和告警分析结合起来。无论上述哪种权重判定方法,且不管权重设定是否准确,由于未结合告警分析的目标,得出的评估结果很难直接用来辅助告警分析。服务器健康度的评估结果需要直接来判定服务器在告警分析中的严重程度,上述权重均难以达到此种目的。
技术实现思路
针对现有技术的缺点,本专利技术的目的是提供一种服务器健康度评估方法。为了实现上述目的,本专利技术提供了一种服务器健康度评估方法。包括如下步骤:S1:获取服务器的网元指标;S2:通过网管的指标阈值监控信息获取每一网元指标的告警等级以及每一告警等级的指标阈值,指标阈值包括指标阈值上限或/和指标阈值下限;S3:实时获取每一网元指标性能值;当网元指标性能值未超出指标阈值上限或未低于指标阈值下限时,根据每一告警等级、每一告警等级的指标阈值以及每一网元指标性能值计算每一网元指标的健康度损减分数;S4:根据每一网元指标的健康度损减分数以及每一网元指标的权重计算服务器的健康度。本专利技术提供的服务器健康度评估方法,通过获取服务器的网元指标,通过网管的指标阈值监控信息获取每一网元指标的告警等级以及每一告警等级的指标阈值,数据来源更精确;通过判断网元指标性能值是否超过指标阈值,综合分析网元指标性能值未超过指标阈值及超过指标阈值时服务器的健康度,有效的填补了现有技术仅仅分析网元指标超过指标阈值,发生告警时服务器的健康度的空白,结合每一网元指标的健康度损减分数以及每一网元指标的权重评估服务器的健康度,能够更科学,更真实有效的反映服务器的健康度,并且,通过本专利技术得出的服务器健康度评估结果,将辅助告警分析,能够帮助网管人员快速找出更可能出现告警或者告警严重的服务器。根据本专利技术另一具体实施方式,网元指标包括:CPU占用率、内存占用率、磁盘繁忙度、分区占用率、虚拟内存占用率。根据本专利技术另一具体实施方式,告警等级包括四个等级,分别为0、1、2、3,其中:0等级的告警严重程度最高,1等级次之,2等级再次之,3等级的告警严重程度最低。根据本专利技术另一具体实施方式,步骤S3还包括步骤S31:所述步骤S3还包括步骤S31:当所述网元指标性能值超出所述指标阈值上限或低于指标阈值下限时,将所述告警等级对应的所述网元指标的健康度减损分数设定为SL,触发0等级时,SL=40;触发1等级时,SL=30;触发2等级时,SL=20;触发3等级时,SL=10。根据本专利技术另一具体实施方式,当网元指标只设置了一个告警等级,且告警等级的指标阈值包括指标阈值上限和指标阈值下限时,在步骤S3中,通过以下公式计算网元指标未超出阈值范围时的健康度损减分数:S=(rrd-td)2/(tu-td)2×(4-wl)×10其中:rrd为网元指标性能值,tu为指标阈值上限,td为指标阈值下限,wl为告警等级。根据本专利技术另一具体实施方式,当网元指标只设置了一个告警等级,且告警等级的指标阈值仅包括指标阈值上限时,在步骤S3中,通过以下公式计算网元指标未超出阈值范围时的健康度损减分数:SL=(rrd)2/(tu)2×(4-wl)×10其中:rrd为网元指标性能值,tu为指标阈值上限,wl为告警等级。根据本专利技术另一具体实施方式,当网元指标设置了多个告警等级,且每一告警等级的指标阈值包括指标阈值上限和指标阈值下限时,在步骤S3中,通过以下公式计算网元指标未超出阈值范围时的健康度损减分数:SL=(rrd-max(td))2/(min(tu)-max(td))2×(4-wl)×10其中:rrd为网元指标性能值,tu为指标阈值上限,td为指标阈值下限,wl为告警严重程度最低的告警等级。根据本专利技术另一具体实施方式,当网元指标设置了多个告警等级,且每一告警等级的指标阈值仅包括指标阈值上限时,在步骤S3中,通过以下公式计算网元指标未超出阈值范围时的健康度损减分数:SL=(rrd)2/(min(tu))2×(4-wl)×10其中:rrd为网元指标性能值,tu为指标阈值上限,wl为告警严重程度最低的告警等级。根据本专利技术另一具体实施方式,在步骤S4中,通过以下步骤确定每一网元指标的权重:S41:根据网元指标性能值是否超出指标阈值上限或低于本文档来自技高网
...
一种服务器健康度评估方法

【技术保护点】
一种服务器健康度评估方法,其特征在于,包括如下步骤:S1:获取所述服务器的网元指标;S2:通过网管的指标阈值监控信息获取每一所述网元指标的告警等级以及每一所述告警等级的指标阈值,所述指标阈值包括指标阈值上限或/和指标阈值下限;S3:实时获取每一网元指标性能值;当所述网元指标性能值未超出所述指标阈值上限或未低于指标阈值下限时,根据所述每一告警等级、每一所述告警等级的指标阈值以及每一所述网元指标性能值计算每一所述网元指标的健康度损减分数;S4:根据每一所述网元指标的健康度损减分数以及每一所述网元指标的权重计算所述服务器的健康度。

【技术特征摘要】
1.一种服务器健康度评估方法,其特征在于,包括如下步骤:S1:获取所述服务器的网元指标;S2:通过网管的指标阈值监控信息获取每一所述网元指标的告警等级以及每一所述告警等级的指标阈值,所述指标阈值包括指标阈值上限或/和指标阈值下限;S3:实时获取每一网元指标性能值;当所述网元指标性能值未超出所述指标阈值上限或未低于指标阈值下限时,根据所述每一告警等级、每一所述告警等级的指标阈值以及每一所述网元指标性能值计算每一所述网元指标的健康度损减分数;S4:根据每一所述网元指标的健康度损减分数以及每一所述网元指标的权重计算所述服务器的健康度。2.如权利要求1所述的服务器健康度评估方法,其特征在于,所述网元指标包括:CPU占用率、内存占用率、磁盘繁忙度、分区占用率、虚拟内存占用率。3.如权利要求1所述的服务器健康度评估方法,其特征在于,所述告警等级包括四个等级,分别为0、1、2、3,其中:0等级的告警严重程度最高,1等级次之,2等级再次之,3等级的告警严重程度最低。4.如权利要求3所述的服务器健康度评估方法,其特征在于,所述步骤S3还包括步骤S31:当所述网元指标性能值超出所述指标阈值上限或低于所述指标阈值下限时,将所述告警等级对应的所述网元指标的健康度减损分数设定为SL,触发0等级时,SL=40;触发1等级时,SL=30;触发2等级时,SL=20;触发3等级时,SL=10。5.如权利要求1所述的服务器健康度评估方法,其特征在于,当所述网元指标只设置了一个告警等级,且所述告警等级的指标阈值包括指标阈值上限和指标阈值下限时,在步骤S3中,通过以下公式计算所述网元指标未超出阈值范围时的健康度损减分数:S=(rrd-td)2/(tu-td)2×(4-wl)×10其中:rrd为网元指标性能值,tu为指标阈值上限,td为指标阈值下限,wl为告警等级。6.如权利要求1所述的服务器健康度评估方法,其特征在于,当所述网元指标只设置了一个告警等级,且所述告警等级的指标阈值仅包括指标阈值上限时,在步骤S3中,通过以下公式计算所述...

【专利技术属性】
技术研发人员:李冰林坚宏
申请(专利权)人:广州市申迪计算机系统有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1