一种监控服务器运行的方法及装置制造方法及图纸

技术编号:34363912 阅读:12 留言:0更新日期:2022-07-31 08:03
本申请的实施例提供了一种监控服务器运行的方法及装置。该监控服务器运行的方法包括:通过探测设备对服务器集群中的服务器进行探测,并在服务器运行发生异常时,将探测结果发送至管理服务器中,通过基于设定条件对探测结果进行合并,以得到发生异常的服务器对应的关联设备的异常信息,从而实现了秒级告警的效果,之后基于异常信息对应关联的接口来获取关联设备的告警信息,提高了大规模服务器在宕机时的故障诊断与定位的效率,并基于异常信息和告警信息生成告警工单进行显示,尤其是在大规模服务器发生宕机时,更加提高了故障检测、定位以及异常修复的效率,增强了服务器运行的可靠性和健壮性。靠性和健壮性。靠性和健壮性。

【技术实现步骤摘要】
一种监控服务器运行的方法及装置


[0001]本申请涉及计算机及通信
,具体而言,涉及一种监控服务器运行的方法及装置。

技术介绍

[0002]在很多服务器运行过程中,需要实时监控服务器的运行状态,以实现对服务器的安全运行管理。相关技术中一般通过一台探测机对单机网络的连通性进行探测。但是,单机探测机的探测能力较弱,探测范围有限,无法支撑百万级服务器规模的探测需求;并且,单机探测机会因为探测机故障、单点网络问题导致告警误告,也无法自动诊断故障原因,不具备大规模宕机原因自动分析,告警发现、诊断、修复需要数小时甚至数天,故障恢复时长。因此,这种探测方式往往会影响服务器的探测效率和管理效率,降低服务器运行的可靠性。

技术实现思路

[0003]本申请的实施例提供了一种监控服务器运行的方法及装置,进而至少在一定程度上可以提高了异常检测、故障定位以及异常修复的效率,增强了服务器运行的可靠性和健壮性。
[0004]本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
[0005]根据本申请实施例的一个方面,提供了一种监控服务器运行的方法,包括:获取至少两个探测设备探测到服务器集群发生异常时的探测结果;其中,所述探测结果为所述至少两个探测设备基于设定的探测周期向所述服务器集群中的至少一个服务器发送探测包生成的;基于设定条件和所述探测结果中的信息,对至少一个所述探测结果进行合并,生成发生异常的服务器对应的关联设备的异常信息;基于所述异常信息关联的目标管理接口,获取所述目标管理接口发送的所述关联设备的告警信息;将基于所述异常信息和所述告警信息生成的告警工单显示在界面中。
[0006]根据本申请实施例的一个方面,提供了一种监控服务器运行的装置,包括:第一获取单元,用于获取至少两个探测设备探测到服务器集群发生异常时的探测结果;其中,所述探测结果为所述至少两个探测设备基于设定的探测周期向所述服务器集群中的至少一个服务器发送探测包生成的;合并单元,用于基于设定条件和所述探测结果中的信息,对至少一个所述探测结果进行合并,生成发生异常的服务器对应的关联设备的异常信息;第二获取单元,用于基于所述异常信息关联的目标管理接口,获取所述目标管理接口发送的所述关联设备的告警信息;显示单元,用于将基于所述异常信息和所述告警信息生成的告警工单显示在界面中。
[0007]在本申请的一些实施例中,基于前述方案,所述合并单元用于:基于互联网数据中心对应的第一探测结果,若所述第一探测结果中的第一异常结果在第一时长内的数量大于或者等于第一数量,且所关联的管理用户的数量大于或者等于第二数量,则将所述第一异
常结果进行合并,生成互联网数据中心异常信息。
[0008]在本申请的一些实施例中,基于前述方案,所述第二获取单元用于基于所述互联网数据中心异常信息关联的网络接口和环境接口,获取所述互联网数据中心的告警信息。
[0009]在本申请的一些实施例中,基于前述方案,所述至少一个服务器对应的关联设备包括交换机;所述合并单元用于:基于交换机对应的第二探测结果,若所述第二探测结果中的第二异常结果在第二时长内的数量大于或者等于第三数量,则将所述第二异常结果进行合并,生成交换机异常信息。
[0010]在本申请的一些实施例中,基于前述方案,所述至少一个服务器对应的关联设备包括承载所述服务器的机架;所述合并单元用于:基于机架对应的第三探测结果,若所述第三探测结果中的第三异常结果在第一时长内的数量大于或者等于第三数量,则将所述第三异常结果进行合并,生成机架异常信息。
[0011]在本申请的一些实施例中,基于前述方案,所述告警信息包括告警类型、告警内容、告警时间以及恢复时间;所述显示单元用于将所述异常信息和所述告警信息与预设的工单标签进行匹配,确定各所述工单标签对应的标签信息;基于所述工单标签以及所述工单标签对应的标签信息,生成告警工单;将所述告警工单显示在界面中。
[0012]在本申请的一些实施例中,基于前述方案,所述监控服务器运行的装置还用于:基于设定的刷新指令,对所述告警工单的状态进行刷新;若刷新得到告警工单的状态为恢复状态,则在所述界面中删除所述告警工单。
[0013]在本申请的一些实施例中,基于前述方案,所述监控服务器运行的装置还用于:获取查询信息,其中所述查询信息包括以下至少一种:服务器标识、服务器地址、告警工单标识、生成所述告警工单的时间;基于所述查询信息,从历史告警工单中选取所述查询信息对应的目标工单;将所述目标工单显示在界面中。
[0014]在本申请的一些实施例中,基于前述方案,所述第一获取单元用于获取至少两个探测设备探测到服务器集群发生异常时发送的异常探测信息;若每个所述探测设备发送的异常探测信息对应的异常服务器相同,则将所述异常探测信息作为所述探测信息。
[0015]根据本申请实施例的一个方面,提供了一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述实施例中所述的监控服务器运行的方法。
[0016]根据本申请实施例的一个方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中所述的监控服务器运行的方法。
[0017]根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的监控服务器运行的方法。
[0018]在本申请的一些实施例所提供的技术方案中,通过探测设备对服务器集群中的服务器进行探测,并在服务器运行发生异常时,将探测结果发送至管理服务器中,通过基于设定条件对探测结果进行合并,以得到发生异常的服务器对应的关联设备的异常信息,从而实现了秒级告警的效果,之后基于异常信息对应关联的接口来获取关联设备的告警信息,
提高了大规模服务器在宕机时的故障诊断与定位的效率,并基于异常信息和告警信息生成告警工单进行显示,尤其是在大规模服务器发生宕机时,更加提高了异常检测、故障定位以及异常修复的效率,增强了服务器运行的可靠性和健壮性。
[0019]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
[0020]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
[0021]图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图;
[0022]图2示意性示出了根据本申请的一个实施例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种监控服务器运行的方法,其特征在于,包括:获取至少两个探测设备探测到服务器集群发生异常时的探测结果;其中,所述探测结果为所述至少两个探测设备基于设定的探测周期向所述服务器集群中的至少一个服务器发送探测包生成的;基于设定条件和所述探测结果中的信息,对至少一个所述探测结果进行合并,生成发生异常的服务器对应的关联设备的异常信息;基于所述异常信息关联的目标管理接口,获取所述目标管理接口发送的所述关联设备的告警信息;将基于所述异常信息和所述告警信息生成的告警工单显示在界面中。2.根据权利要求1所述的方法,其特征在于,基于设定条件和所述探测结果中的信息,对至少一个所述探测结果进行合并,生成发生异常的服务器对应的关联设备的异常信息,包括:基于互联网数据中心对应的第一探测结果,若所述第一探测结果中的第一异常结果在第一时长内的数量大于或者等于第一数量,且所关联的管理用户的数量大于或者等于第二数量,则将所述第一异常结果进行合并,生成互联网数据中心异常信息。3.根据权利要求2所述的方法,其特征在于,基于所述异常信息关联的目标管理接口,获取所述目标管理接口发送的所述关联设备的告警信息,包括:基于所述互联网数据中心异常信息关联的网络接口和环境接口,获取所述互联网数据中心的告警信息。4.根据权利要求1所述的方法,其特征在于,所述至少一个服务器对应的关联设备包括交换机;基于设定条件和所述探测结果中的信息,对至少一个所述探测结果进行合并,生成发生异常的服务器对应的关联设备的异常信息,包括:基于交换机对应的第二探测结果,若所述第二探测结果中的第二异常结果在第二时长内的数量大于或者等于第三数量,则将所述第二异常结果进行合并,生成交换机异常信息。5.根据权利要求1所述的方法,其特征在于,所述至少一个服务器对应的关联设备包括承载所述服务器的机架;基于设定条件和所述探测结果中的信息,对至少一个所述探测结果进行合并,生成发生异常的服务器对应的关联设备的异常信息,包括:基于机架对应的第三探测结果,若所述第三探测结果中的第三异常结果在第一时长内的数量大于...

【专利技术属性】
技术研发人员:林哲伟曾令新
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1