【技术实现步骤摘要】
一种故障主机的定位方法
[0001]本专利技术涉及网络安全运维
,具体是一种故障主机的定位方法。
技术介绍
[0002]随着分布式软件构架成熟应用和云计算环境的普及,大型企业的业务系统大多采用分布式部署方式,一套信息系统的多个组件部属于海量的主机上,主机规模达到上百甚至上千。一旦业务系统发生故障,运维人员需要在尽可能短的时间内,定位故障主机,采取应急措施,替换故障主机,使得业务系统恢复。然后,运维人员对故障主机进行分析,确定故障原因,假如是软件缺陷,则将问题提交给开发人员。故障主机的数量可能是一台,也可能是多台。
[0003]传统上,定位故障主机的方法主要依赖于运维人员的人工经验。运维人员会以业务系统故障发生时间为线索,查看大量的监测指标,发现那些在同一时间段附近发生异常变化的指标。在这些可疑的监测指标所属的主机上,运维人员进一步查看日志和告警事件,从而最终锁定和故障原因直接相关的主机。然而,查看大量的监测指标的工作需要大量的时间,且属于机械重复性工作,通常需要数十分钟到几个小时。查看监测指标的时间开销大大延长 ...
【技术保护点】
【技术特征摘要】
1.一种故障主机的定位方法,其特征在于,所述方法包括:分析所有的监测指标,确定关键变化点和所述监测指标在关键变化点上的变化特征;根据训练好的排序算法对监测指标进行排序;其中,所述关键变化点为在预设时间范围内监测指标变化幅度最大的时间点。2.根据权利要求1所述的故障主机的定位方法,其特征在于,确定关键变化点的步骤包括:根据预设的第一回溯时间确定故障时间窗;所述故障时间窗的右端点为业务系统观察到故障的时间;在检测时间窗内依次获取监测指标各序列点上的变化量;所述变化量序列上相邻时刻对应的值之间的差分绝对值;确定所述变化量的最大值,获取所述最大值对应的时刻,作为关键变化点。3.根据权利要求1所述的故障主机的定位方法,其特征在于,确定所述监测指标在关键变化点上的变化特征的步骤包括:确定第二回溯时间,获取运维人员开始采取缓解措施的应急时间;根据所述关键变化点和所述第二回溯时间确定第一时间段,根据所述关键变化点和所述应急时间确定第二时间段;其中,所述第一时间段在所述关键变化点之前,所述第二时间段在所述关键变化点之后;获取第一时间段内各监测指标在第二时间段内观测到的概率;根据观测到的概率和预设的随机变量确定上升变化和下降变化。4.根据权利要求3...
【专利技术属性】
技术研发人员:李建华,陈璐艺,翁亮,
申请(专利权)人:上海鹏越惊虹信息技术发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。